好,既然是评论,我们首先当然要来一发词云分析先。 library(tm) library(Rwordseg) installDict('明星【官方推荐】.scel','明星') contentCorpus<- Corpus(VectorSource(na.omit(d$text))) contentCorpus<- tm_map(contentCorpus, stripWhitespace) contentCorpus=tm_map(contentCorpus, content_transformer(segmentCN), returnType='tm') #tm分词对中文分词Bug解决方案 tokenizer <-function(x){ unlist( strsplit( x$content, '[[:space:]]+' ) ) } tdm <-TermDocumentMatrix( contentCorpus, control=list( wordLengths=c(1,Inf), tokenize=tokenizer ) ) #转成向量矩阵 tdm <-as.matrix(tdm) library(wordcloud) v <-sort(rowSums(tdm), decreasing = TRUE) d <-data.frame(word = names(v), freq = v) d <- d[1:300,] wordcloud( d$word, d$freq, min.freq=2, random.order=F, colors=rainbow(length(row.names(d))) )
执行这段代码,我们可以得到以下的词云: 
可以看到,网友们对于陈老师的这种无端端撕B的行为,一致认为是“你,的,不,是”。(DT君吐槽:这图真心有点吃藕!) 港东银最关心陈老湿 陈老师,看到后,也回复了网友的关心: 
好了,大家的态度,陈老师收到了,你们喜欢或者是不喜欢,陈老师还是当年的陈老师,粉丝量还是上两千万的陈老师。 好,接着我们来分析一下网友们的特征。 genderTable<- prop.table(table(d$gender))

女网友竟然占比达到65%,好惊讶,是因为志玲姐姐男女通吃,还是陈老师魅力不减当年,还有一堆的女性摄影爱好者粉丝呢…… 
接着我们来看看网友们的地区分布: locationTable<- prop.table(table(d[, "1"][d[, "1"]!="其他"]))

这个就不出所料了,港东银占据了榜首,不愧是和陈老师发源地比较近。 接着,我们看看用户是否都是加V的。 verifiedTable<- prop.table(table(d$verified))

看来陈老师号召力很强,竟然有1.5%的加V用户转发它了。 最后,我们来看看用户的微博等级: hist(d$urank, main = "用户等级",xlab = "用户等级", freq = FALSE, ylab = "占比")

我们可以看到,用户的等级竟然也是就接近正态分布,证明这个话题的水军比较少呢,陈老师果然是实力派,出来混,是不需要带是水军的。 PS:笔者微博等级才14级,因为懒得关注太多的人,所以卡在了14级,所以12到14级人多是很正常的。 数据侠门派: 本文数据侠 KEN “小蚊子数据分析”团队成员 (编辑:应用网_丽江站长网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|