LDA文本分类

PLSALDA对⽐

pLSALDA的本质区别就在于它们去估计未知参数所采⽤的思想不 同,前者⽤的是频率派思想,后者⽤的是⻉叶斯派思想。

pLSA

pLSA 模型是有向图模型,将主题作为隐变量,构建了一个简单的贝叶斯网,采用EM算法估计模型参数。相比于 LSA 略显“随意”的SVD,pLSA 的统计基础更为牢固。

相比于 LDA 模型里涉及先验分布,pLSA 模型相对简单:观测变量为文档 dm∈Dd_m\in\mathbb Ddm​∈D(文档集共 M 篇文档)、词 wn∈Ww_n\in\mathbb Wwn​∈W(设词汇表共有 V 个互不相同的词),隐变量为主题 zk∈Zz_k\in\mathbb Zzk​∈Z(共 K 个主题)。在给定文档集后,我们可以得到一个词-文档共现矩阵,每个元素 n(dm,wn)n(d_m,w_n)n(dm​,wn​) 表示的是词 wnw_nwn​ 在文档 dmd_mdm​ 中的词频。也就是说,pLSA 模型也是基于词-文档共现矩阵的,不考虑词序
pLSA 模型通过以下过程来生成文档(记号里全部省去了对参数的依赖):
(1) 以概率 P(dm)P(d_m)P(dm​) 选

  • 1
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值