Topic Model的分类和设计原则

xianlingmao

于 2011-12-13 17:12:14 发布

阅读量2.5w

点赞数 8

分类专栏： gibbs sampling 模拟与采样图模型 topic model lda 机器学习文章标签：文档算法 google 框架

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xianlingmao/article/details/7065318

版权

本文介绍了Topic Model的基础概念，如LDA，并将其分为无监督无层次、无监督有层次、有监督无层次和有监督有层次四类。重点讨论了模型设计中的关键点，包括看待topic的不同方式，建立有监督模型的两类方法，以及建立层次关系的常见策略。此外，还提及了参数学习和推理常用的EM算法、变分推断和Gibbs采样方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

topic model的介绍性文章已经很多，在此仅做粗略介绍，本文假设读者已经较为熟悉Topic Medel。

Topic Model （LDA）认为一个离散数据集合（如文档集合，图片集合，为行文方便，本文统统以文档集合作为描述对象，其他的数据集合只需换掉对应的术语即可）是由隐含在数据集合背后的topic set 生成的，这个set中的每一个topic都是词的概率分布。对于文档中的每一篇文档，先抽取一个topics proportion \theta；然后对于这个文档中的每一个词的位置 w_i, LDA 先从\theta中选择一个topic，然后再从这个topic对应的词分布中选择一个词去填充；按照上述步骤直到整个文档集合产生完毕。

上述是LDA生成一个文档集合过程的简要介绍，下面我会把目前出现的topic models进行分门别类。

我认为topic models主要可以分为四大类：1）无监督的、无层次结构的topic model；2）无监督的、层次结构的topic model；3）有监督的、无层次结构的topic model；4）有监督的、层次结构的topic model。

对于1）主要有： PLSA, LDA, Correlated Topic Model, PAM，Concept Topic Model等

对于2）主要有： HLDA， HDP，HPAM等

对于3）主要有： S-LDA, Disc-

最低0.47元/天解锁文章

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。