作为python的一个库,gensim给了文本主题模型足够的方便,像他自己的介绍一样,topic modelling for humans
具体的tutorial可以参看他的官方网页,当然是全英文的,http://radimrehurek.com/gensim/tutorial.html
由于这个链接打开速度太慢太慢,我决定写个中文总结:(文章参考了52nlp的博客,参看http://www.52nlp.cn)
安装就不用说了,在ubuntu环境下,sudo easy_install gensim即可
首先,引用gensim包,gensim包中引用corpora,models, similarities,分别做语料库建立,模型库和相似度比较库,后面可以看到例子
from gensim import corpora, models, similarities
我调用了结巴分词做中文处理,所以同样
import jieba
手工写个文本列表
sentences = ["我喜欢吃土豆","土豆是个百搭的东西","我不喜欢今天雾霾的北京"]
用结巴分词后待用,因为gensim包做主题模型,在意的是语料库,所以,中文英文,one-term,two-term都是无所谓的,如果有已经生成好的语料库,那么可以考虑直接跳到建模环节
官方提供的语料库范例是这样的:
corpus = [[(0, 1.0), (1, 1.0), (2, 1.0)],
>>> [(2, 1.0), (3, 1.0), (4, 1.0), (5, 1.0), (6, 1.0), (8, 1.0)],
>>> [(1, 1.0), (<