LDA文本分类

最新推荐文章于 2021-03-20 23:03:19 发布

小鱼儿的博客

最新推荐文章于 2021-03-20 23:03:19 发布

阅读量5.7k

点赞数 1

分类专栏： NLP学习笔记文章标签： LDA

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zaishijizhidian/article/details/89408460

版权

本文对比了PLSA和LDA两种主题模型，详细介绍了LDA的训练过程和推断方法，并探讨了LDA在文本分类中的实践挑战，如主题数目的确定。

摘要由CSDN通过智能技术生成

PLSA与LDA对⽐

pLSA跟LDA的本质区别就在于它们去估计未知参数所采⽤的思想不同，前者⽤的是频率派思想，后者⽤的是⻉叶斯派思想。

pLSA

pLSA 模型是有向图模型，将主题作为隐变量，构建了一个简单的贝叶斯网，采用EM算法估计模型参数。相比于 LSA 略显“随意”的SVD，pLSA 的统计基础更为牢固。

相比于 LDA 模型里涉及先验分布，pLSA 模型相对简单：观测变量为文档 dm∈Dd_m\in\mathbb Ddm∈D（文档集共 M 篇文档）、词 wn∈Ww_n\in\mathbb Wwn∈W（设词汇表共有 V 个互不相同的词），隐变量为主题 zk∈Zz_k\in\mathbb Zzk∈Z（共 K 个主题）。在给定文档集后，我们可以得到一个词-文档共现矩阵，每个元素 n(dm,wn)n(d_m,w_n)n(dm,wn) 表示的是词 wnw_nwn 在文档 dmd_mdm 中的词频。也就是说，pLSA 模型也是基于词-文档共现矩阵的，不考虑词序
pLSA 模型通过以下过程来生成文档（记号里全部省去了对参数的依赖）：
(1) 以概率 P(dm)P(d_m)P(dm) 选

最低0.47元/天解锁文章

小鱼儿的博客

关注

1
点赞
踩
20

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。