短评论聚类并显示提取属性
评论获取
使用selenium控制Chrome模拟访问爬取数据
文本预处理
- 清理爬取数据中的网页标签、特殊字符、非中文字符(不包括标点符号)等
- 将一条评论按标点拆分为短句,同时记录下原始的长句,每个短句在长句中的索引,以方便展示时高亮
- 分词。不需要去停用词,word2vec建模包含上下文信息
word2vec 建模
建立300维,迭代5次的模型
使用word2vec计算短句向量
句中每个词的词向量拼接成一个数组,并做归一化处理
TSNE降维
降维成2维数据以便聚类,DBSCAN聚类对高维数据效果不好。使用linux可加速降维过程,Windows C编译器无法使用
DBSCAN聚类
eps∈[0.5, 4.0]
min_simple ∈[4, 40]
使用网格搜索法,calinski_harabaz_score 评价聚类得分。画出离 散点-得分 折线图,取得在离散点少,得分高的参数
在 离散点=40000 左右得到最优参数
计算聚类中心
根据蔟内每个点到其他点的距离和,距离最短的即为中心点
聚类结果展示
善用pandas处理数据,传给网页显示即可