(1)评论集合抽取,给出抽取代码,抽取结果
#评论抽取
- pinglun<-as.data.frame(read.csv("D:/dui/huizong.csv"))#读入数据
- pinglun1<-which(pinglun$品牌=="海尔")#查看品牌为海尔的数据
- pinglun<-pinglun[pinglun1,]#用海尔数据替换原始pinglun的数据
- pinglun2<-pinglun[39001:40000,]#提取pinglun中39001到40000的数据
- pinglun2$评论
- summary(pinglun2)
(2)评论预处理,给出代码及结果(文本去重,去空,去无意义符号如“......”,“???”,去字符“AABBBCHD”等
#数据预处理
- summary(pinglun2)
#文本去重
- duplicated(pinglun2$评论)#查看重复值
- sum(d
uplicated(pinglun2$评论))#查看重复值有多少
- pinglun2<-pinglun2[!duplicated(pinglun2$评论),]#删除重复值
#删除缺失值
- is.na(pinglun2$评论)#判断缺失值
- sum(is.na(pinglun2$评论))#统计缺失值有多少,无缺失值