SS00028.algorithm——|Arithmetic&Machine.v28|——|Machine:项目实战.v05|舆情分析|

一、舆情分析
### --- 舆情分析

~~~     # 文本挖掘基本流程
~~~     # 使用的数据是评论数据,即文本数据。
~~~     # 文本数据的分析过程主要有:清洗,可视,这里针对中文文本。
~~~     清洗基本流程:
~~~     替换非中英文字符为空格;
~~~     分词(结巴jieba);
~~~     去掉停用词(对描述和建模无意义的词);
~~~     筛选高频词;此流程需要反复尝试对比效果。
~~~     # 可视化:
~~~     一般都是词云,可能配合关键词排序等。
~~~     # 建模:
~~~     建模前需要将数据转成文档词矩阵(dtm);
~~~     有监督的话常用的是贝叶斯,其他偏精度的算法也可以,要注意特征个数;
~~~     无监督常用的是主题模型LDA,其他诸如分群,情感分析也可以。
~~~     # 清洗流程中,
~~~     尤其是口语化较强的数据,例如评论数据,需要去除重复语句,以及字数少于某个阈值的评论。
~~~     # 根据评论数据得到的词云如下:
### --- 关键字提取

~~~     # 基于 TF-IDF 算法的关键词抽取
jieba.analyse.extract_tags(bai64,20,True)

~~~     不管从词云还是关键词来看,评价偏好评,没有明显问题。
~~~     可以在停用词中添加好评,蟑螂可以再看效果。
二、项目总结
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

yanqi_vip

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值