短评论聚类并显示提取属性

短评论聚类并显示提取属性

评论获取

使用selenium控制Chrome模拟访问爬取数据

文本预处理

  1. 清理爬取数据中的网页标签、特殊字符、非中文字符(不包括标点符号)等
  2. 将一条评论按标点拆分为短句,同时记录下原始的长句,每个短句在长句中的索引,以方便展示时高亮
  3. 分词。不需要去停用词,word2vec建模包含上下文信息

word2vec 建模

建立300维,迭代5次的模型

使用word2vec计算短句向量

句中每个词的词向量拼接成一个数组,并做归一化处理

TSNE降维

降维成2维数据以便聚类,DBSCAN聚类对高维数据效果不好。使用linux可加速降维过程,Windows C编译器无法使用

DBSCAN聚类

eps∈[0.5, 4.0]
min_simple ∈[4, 40]
使用网格搜索法,calinski_harabaz_score 评价聚类得分。画出离 散点-得分 折线图,取得在离散点少,得分高的参数
散点-得分
在 离散点=40000 左右得到最优参数

计算聚类中心

根据蔟内每个点到其他点的距离和,距离最短的即为中心点

聚类结果展示

善用pandas处理数据,传给网页显示即可

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值