文章目录
前言
近期企业对非结构化数据的重视和运用,尤其是对消费者针对商品的各种形式的反馈信息开始变得普遍起来。本部分的分析案例提取了京东上某手机产品的评论数数据来演示整个文本分析的过程。数据提取码:227t和参考书(第十二章内容)提取码:fvyn 在链接里面。
一、R语言的中文分词及处理
我们这里提取了京东上某手机品牌的数据,直接存储为文本文件格式,每行为一条评论(数据提在Kettle文件夹中,文件名称是“1-手机评论文本源文件”,需要手动将其复制到12.1 R处理相关文件)
#R_SplitWord.R
install.packages("jiebaR")#安装jiebaR 包
library(jiebaR)#导入该包
setwd("C:/Users/dell/Desktop/《Tableau商业分析从新手到高手》数据源文件/第12章/12.1 R处理相关文件")#设置默认路径
wordsplit<-worker(stop_word = "stopCn.txt",encodi