一、舆情分析
### --- 舆情分析
~~~ # 文本挖掘基本流程
~~~ # 使用的数据是评论数据,即文本数据。
~~~ # 文本数据的分析过程主要有:清洗,可视,这里针对中文文本。
~~~ 清洗基本流程:
~~~ 替换非中英文字符为空格;
~~~ 分词(结巴jieba);
~~~ 去掉停用词(对描述和建模无意义的词);
~~~ 筛选高频词;此流程需要反复尝试对比效果。
~~~ # 可视化:
~~~ 一般都是词云,可能配合关键词排序等。
~~~ # 建模:
~~~ 建模前需要将数据转成文档词矩阵(dtm);
~~~ 有监督的话常用的是贝叶斯,其他偏精度的算法也可以,要注意特征个数;
~~~ 无监督常用的是主题模型LDA,其他诸如分群,情感分析也可以。
~~~ # 清洗流程中,
~~~ 尤其是口语化较强的数据,例如评论数据,需要去除重复语句,以及字数少于某个阈值的评论。
~~~ # 根据评论数据得到的词云如下:
![](https://i-blog.csdnimg.cn/blog_migrate/cd5036a6861356bfe0ae743e25a00fc7.png)
### --- 关键字提取
~~~ # 基于 TF-IDF 算法的关键词抽取
jieba.analyse.extract_tags(bai64,20,True)
~~~ 不管从词云还是关键词来看,评价偏好评,没有明显问题。
~~~ 可以在停用词中添加好评,蟑螂可以再看效果。
![](https://i-blog.csdnimg.cn/blog_migrate/a9b9bf065e445a2a4c721c459efb5fec.png)
二、项目总结
![](https://i-blog.csdnimg.cn/blog_migrate/264bac7376ddb42a8929f74cc320d7a4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f07079244e1363ab8fffbc605f1a15c6.png)