R语言可视化作图笔记（5）文本可视化

最新推荐文章于 2022-05-04 12:39:22 发布

wildwind0907

最新推荐文章于 2022-05-04 12:39:22 发布

阅读量936

点赞数

分类专栏： R的数据可视化笔记 R编程文章标签： R 词汇树词云短语网

本文链接：https://blog.csdn.net/wildwind0907/article/details/83758557

版权

R编程同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

R的数据可视化笔记

10 篇文章 0 订阅

订阅专栏

文本可视化（Text Visualization）

词云（Word Cloud）

本例中Five.txt是一个包含对CASIO某一手表的所有五星好评，分别用到了tm，wordcloud，RColorBrewer建立词云

data<-read.table("Five.txt",header=F, sep='\n') #读取文档
library(tm)
library(wordcloud)
library(RColorBrewer)
data$doc_id=1:nrow(data)
colnames(data)[1]<-"text"

#把data中的每一行当成单独的文档
mycorpus <- Corpus(DataframeSource(data)) #生成语料库（Corpus，词汇数据的集合）
mycorpus <- tm_map(mycorpus, removePunctuation)
mycorpus <- tm_map(mycorpus, function(x) removeWords(x, stopwords("english")))
tdm <- TermDocumentMatrix(mycorpus) #生成Term-document矩阵
m <- as.matrix(tdm)

#归并所有行
v <- sort(rowSums(m),decreasing=TRUE) #求得各词的频数
d <- data.frame(word = names(v),freq=v) 
pal <- brewer.pal(6,"Dark2")
pal <- pal[-(1:2)] #生成调色板（palette）
wordcloud(d$word,d$freq,
          scale=c(6,.3), #词大小范围
          min.freq=4,   #最小频率
          max.words=100,  #最多词数
          random.order=F, rot.per=.15, colors=pal, vfont=c("sans serif","plain"))

在这里插入图片描述

短语网（Phrase Nets）

短语网是通过连接词找到其他高频词，例如英文中的am，is， are， was， were，a，the，of 等等。借助一个java小程序 phrase-nets （如果外网上不了，就在这里下载），下图是Five.txt以 am,is,are,was,were 为连接词的短语网（前20高频词）
在这里插入图片描述

词汇树（Word Tree）

最后一个是词汇树，借助网站，来绘制Five.txt的词汇树。直接将文档中的内容复制到下图的输入框中，点击生成
在这里插入图片描述

其他

总之，不管是WordCloud，PhraseNets，还是WordTree中出现的词仅表示该词为文中的高频词，具体意义还需要使用者自己推测与分析。

wildwind0907

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
R语言可视化作图笔记（5）文本可视化

文本可视化（Text Visualization）词云（Word Cloud）本例中Five.txt是一个包含对CASIO某一手表的所有五星好评，分别用到了tm，wordcloud，RColorBrewer建立词云data&amp;amp;lt;-read.table(&amp;quot;Five.txt&amp;quot;,header=F, sep='\n') #读取文档library(tm)library(wordcloud)li...
复制链接

扫一扫