短评论聚类并显示提取属性

最新推荐文章于 2024-03-18 15:35:20 发布

zy4321234zx

最新推荐文章于 2024-03-18 15:35:20 发布

阅读量1.2k

点赞数 1

分类专栏：机器学习文章标签：短评论聚类 DBSCAN

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zy4321234zx/article/details/89841890

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

短评论聚类并显示提取属性

评论获取

使用selenium控制Chrome模拟访问爬取数据

文本预处理

清理爬取数据中的网页标签、特殊字符、非中文字符（不包括标点符号）等
将一条评论按标点拆分为短句，同时记录下原始的长句，每个短句在长句中的索引，以方便展示时高亮
分词。不需要去停用词，word2vec建模包含上下文信息

word2vec 建模

建立300维，迭代5次的模型

使用word2vec计算短句向量

句中每个词的词向量拼接成一个数组，并做归一化处理

TSNE降维

降维成2维数据以便聚类，DBSCAN聚类对高维数据效果不好。使用linux可加速降维过程，Windows C编译器无法使用

DBSCAN聚类

eps∈[0.5, 4.0]
min_simple ∈[4, 40]
使用网格搜索法，calinski_harabaz_score 评价聚类得分。画出离散点-得分折线图，取得在离散点少，得分高的参数

在离散点=40000 左右得到最优参数

计算聚类中心

根据蔟内每个点到其他点的距离和，距离最短的即为中心点

聚类结果展示

善用pandas处理数据，传给网页显示即可

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

zy4321234zx CSDN认证博客专家 CSDN认证企业博客

码龄13年

7: 原创

20万+: 周排名

143万+: 总排名

1万+: 访问

: 等级

199: 积分

2: 粉丝

8: 获赞

18: 评论

16: 收藏

私信

关注

热门文章

分类专栏

Java 2篇
web 2篇
汉化
sql 1篇
机器学习 2篇
Django 1篇

最新评论

短评论聚类并显示提取属性
CSDN-Ada助手: 多亏了你这篇博客, 解决了问题: https://ask.csdn.net/questions/8081635, 请多输出高质量博客, 帮助更多的人
StanfordCoreNLP 运行缓慢（python）
经十东路31699号: 你好，博主，我在处理数据构造依赖树时，运行到一定数量的句子之后，运行就会停滞，但是并没有暂停或者出现错误，感觉可能是把运行完的数据放到了内存中，导致内存满了，对不对呢，有没有解决方法？
短评论聚类并显示提取属性
zy4321234zx: 这些东西每一步都查得到具体实现啊，不难吧？
短评论聚类并显示提取属性
weixin_41829812: 你好，请问能分享一下代码吗

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。