gensim做主题模型

最新推荐文章于 2025-03-26 20:37:24 发布

itgeeks

最新推荐文章于 2025-03-26 20:37:24 发布

阅读量2.5w

点赞数 7

分类专栏：数据挖掘文章标签： python

本文链接：https://blog.csdn.net/whzhcahzxh/article/details/17528261

版权

本文介绍了如何使用python库gensim进行中文主题建模，包括分词、词典构建、语料库创建、TF-IDF转换、LSI和LDA模型的应用。通过示例展示了gensim处理中文文本的过程，并探讨了不同主题模型的相似度计算。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作为python的一个库，gensim给了文本主题模型足够的方便，像他自己的介绍一样，topic modelling for humans

具体的tutorial可以参看他的官方网页，当然是全英文的，http://radimrehurek.com/gensim/tutorial.html

由于这个链接打开速度太慢太慢，我决定写个中文总结：（文章参考了52nlp的博客，参看http://www.52nlp.cn）

安装就不用说了，在ubuntu环境下，sudo easy_install gensim即可

首先，引用gensim包，gensim包中引用corpora,models, similarities，分别做语料库建立，模型库和相似度比较库，后面可以看到例子

from gensim import corpora, models, similarities

我调用了结巴分词做中文处理，所以同样

import jieba

手工写个文本列表

sentences = ["我喜欢吃土豆","土豆是个百搭的东西","我不喜欢今天雾霾的北京"]

用结巴分词后待用，因为gensim包做主题模型，在意的是语料库，所以，中文英文，one-term，two-term都是无所谓的，如果有已经生成好的语料库，那么可以考虑直接跳到建模环节

官方提供的语料库范例是这样的：

corpus = [[(0, 1.0), (1, 1.0), (2, 1.0)],
>>>           [(2, 1.0), (3, 1.0), (4, 1.0), (5, 1.0), (6, 1.0), (8, 1.0)],
>>>           [(1, 1.0), (<