R语言可视化作图笔记(5)文本可视化

文本可视化(Text Visualization)

词云(Word Cloud)

本例中Five.txt是一个包含对CASIO某一手表的所有五星好评,分别用到了tmwordcloudRColorBrewer建立词云

data<-read.table("Five.txt",header=F, sep='\n') #读取文档
library(tm)
library(wordcloud)
library(RColorBrewer)
data$doc_id=1:nrow(data)
colnames(data)[1]<-"text"

#把data中的每一行当成单独的文档
mycorpus <- Corpus(DataframeSource(data)) #生成语料库(Corpus,词汇数据的集合)
mycorpus <- tm_map(mycorpus, removePunctuation)
mycorpus <- tm_map(mycorpus, function(x) removeWords(x, stopwords("english")))
tdm <- TermDocumentMatrix(mycorpus) #生成Term-document矩阵
m <- as.matrix(tdm)

#归并所有行
v <- sort(rowSums(m),decreasing=TRUE) #求得各词的频数
d <- data.frame(word = names(v),freq=v) 
pal <- brewer.pal(6,"Dark2")
pal <- pal[-(1:2)] #生成调色板(palette)
wordcloud(d$word,d$freq,
          scale=c(6,.3), #词大小范围
          min.freq=4,   #最小频率
          max.words=100,  #最多词数
          random.order=F, rot.per=.15, colors=pal, vfont=c("sans serif","plain"))

在这里插入图片描述

短语网(Phrase Nets)

短语网是通过连接词找到其他高频词,例如英文中的am,is, are, was, were,a,the,of 等等。借助一个java小程序 phrase-nets (如果外网上不了,就在这里下载),下图是Five.txt以 am,is,are,was,were 为连接词的短语网(前20高频词)
在这里插入图片描述

词汇树(Word Tree)

最后一个是词汇树,借助网站,来绘制Five.txt的词汇树。直接将文档中的内容复制到下图的输入框中,点击生成
在这里插入图片描述
在这里插入图片描述

其他

总之,不管是WordCloud,PhraseNets,还是WordTree中出现的词仅表示该词为文中的高频词,具体意义还需要使用者自己推测与分析。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值