gensim做主题模型

作为python的一个库,gensim给了文本主题模型足够的方便,像他自己的介绍一样,topic modelling for humans


具体的tutorial可以参看他的官方网页,当然是全英文的,http://radimrehurek.com/gensim/tutorial.html


由于这个链接打开速度太慢太慢,我决定写个中文总结:(文章参考了52nlp的博客,参看http://www.52nlp.cn)


安装就不用说了,在ubuntu环境下,sudo easy_install gensim即可


首先,引用gensim包,gensim包中引用corpora,models, similarities,分别做语料库建立,模型库和相似度比较库,后面可以看到例子

from gensim import corpora, models, similarities


我调用了结巴分词做中文处理,所以同样

import jieba


手工写个文本列表

sentences = ["我喜欢吃土豆","土豆是个百搭的东西","我不喜欢今天雾霾的北京"]


用结巴分词后待用,因为gensim包做主题模型,在意的是语料库,所以,中文英文,one-term,two-term都是无所谓的,如果有已经生成好的语料库,那么可以考虑直接跳到建模环节

官方提供的语料库范例是这样的:

corpus = [[(0, 1.0), (1, 1.0), (2, 1.0)],
>>>           [(2, 1.0), (3, 1.0), (4, 1.0), (5, 1.0), (6, 1.0), (8, 1.0)],
>>>           [(1, 1.0), (<
  • 7
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 12
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值