基于BERTopic模型的中文文本主题聚类及可视化

最新推荐文章于 2024-08-09 07:38:32 发布

Cachel wood

最新推荐文章于 2024-08-09 07:38:32 发布

阅读量1.8k

点赞数 19

分类专栏：自然语言处理nlp 文章标签：聚类数据挖掘机器学习 python 知识图谱 BERT BERTopic

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46530492/article/details/136420636

版权

自然语言处理nlp 专栏收录该内容

20 篇文章 33 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了如何利用BERTopic模型对中文文本进行主题聚类和可视化。首先，简述了BERTopic的基本原理和模型加载，接着展示了数据处理、文本嵌入和模型构建的过程。实验中，对京东评论数据集进行处理，通过模型得到主题数量，并对主题分布进行了详细展示，包括词概率分布、聚类可视化和主题相似度等。最后，强调了BERTopic在自动识别文本主题方面的优势。

摘要由CSDN通过智能技术生成

文章目录

BERTopic简介

BERTopic论文地址：BERTopic: Neural topic modeling with a class-based TF-IDF procedure

BERTopic是一种结合了预训练模型BERT和主题建模的强大工具。它允许我们将大规模文本数据集中的文档映射到主题空间，并自动识别潜在的主题。

它背后的核心思想是通过BERT模型来捕获文档的语义信息，并然后使用主题建模技术来对这些语义信息进行聚类，从而得出主题。

模型加载地址

https://public.ukp.informatik.tu-darmstadt.de/reimers/sentence-transformers/v0.2/

在这里插入图片描述

默认的英文文本

了解本专栏

超级会员免费看

关注

19
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Cachel wood CSDN认证博客专家 CSDN认证企业博客

码龄5年

530: 原创

2万+: 周排名

3674: 总排名

82万+: 访问

: 等级

8694: 积分

2178: 粉丝

1383: 获赞

223: 评论

2611: 收藏

私信

关注

热门文章

分类专栏

最新评论

neo4j下载安装最新教程 2024.02
weixin_49006932: E:\software\neo4j-community-5.23.0-windows\neo4j-community-5.23.0\bin>neo4j.bat console 错误: 找不到或无法加载主类 org.neo4j.server.startup.Neo4jCommand 原因: java.lang.ClassNotFoundException: org.neo4j.server.startup.Neo4jCommand 这是为什么每次重新安装打开控制台就可以正常运行，关闭cmd 再打开就报错
python爬取京东评论最新教程2024.03
子華神: 能不能写得再详细一点呢
word修改公式默认字体并打出漂亮公式
白执墨: 请问控制面板有这个字体，但是word没有是什么情况呢
基于BERTopic模型的中文文本主题聚类及可视化
嵌入式-老梁: 代码报错，请问增么操作 { "name": "NameError", "message": "name 'ClassTfidfTransformer' is not defined", "stack": "--------------------------------------------------------------------------- NameError Traceback (most recent call last) Cell In[37], line 13 11 from sklearn.feature_extraction.text import CountVectorizer 12 vectorizer_model = CountVectorizer(analyzer='word', token_pattern=u\"(?u)\\\\b\\\\w+\\\\b\") ---> 13 ctfidf_model = ClassTfidfTransformer() 14 topic_model = BERTopic( 15 embedding_model=embedding_model, # Step 1 - Extract embeddings 16 umap_model=umap_model, # Step 2 - Reduce dimensionality (...) 22 top_n_words = 10 23 ) 24 filtered_text = df[\"segment\"].tolist() NameError: name 'ClassTfidfTransformer' is not defined"
gurobi最新下载安装教程 2023.11
030929: 很不详细啊。。。。。

最新文章

2024

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Cachel wood 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。