如何确定LDA的topic个数

本文探讨了确定LDA模型中topic数量的几种科学方法,包括通过perplexity-topic number曲线、topic_number-logP(w|T)曲线、计算主题间的相似度以及利用HDP层次狄利克雷过程。每种方法都有其理论依据和实践指导价值。
摘要由CSDN通过智能技术生成

以前一直是按经验设置topic个数,数据量小就少点,数据量大就多点,大概50-500吧。最近有同学跟我讨论,才想起来该找找相关文献,学习一下如何科学的确定topic个数。

1.用perplexity-topic number曲线

LDA有一个自己的评价标准叫Perplexity(困惑度),可以理解为,对于一篇文档d,我们的模型对文档d属于哪个topic有多不确定,这个不确定程度就是Perplexity。其他条件固定的情况下,topic越多,则Perplexity越小,但是容易过拟合。

这里也提一下如何计算Perplexity

测试文本集中有M篇文本,对词袋模型里的任意一个单词w,P(w)=∑z p(z|d)*p(w|z),即该词在所有主题分布值和该词所在文本的主题分布乘积。

模型的perplexity就是exp^{ - (∑log(p(w))) / (N) },∑log(p(w))是对所有单词取log(直接相乘一般都转化成指数和对数的计算形式),N的测试集的单词数量(不排重)

回到正题,知道了

  • 4
    点赞
  • 58
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值