PLSA与LDA对⽐
pLSA跟LDA的本质区别就在于它们去估计未知参数所采⽤的思想不 同,前者⽤的是频率派思想,后者⽤的是⻉叶斯派思想。
pLSA
pLSA 模型是有向图模型,将主题作为隐变量,构建了一个简单的贝叶斯网,采用EM算法估计模型参数。相比于 LSA 略显“随意”的SVD,pLSA 的统计基础更为牢固。
相比于 LDA 模型里涉及先验分布,pLSA 模型相对简单:观测变量为文档 dm∈Dd_m\in\mathbb Ddm∈D(文档集共 M 篇文档)、词 wn∈Ww_n\in\mathbb Wwn∈W(设词汇表共有 V 个互不相同的词),隐变量为主题 zk∈Zz_k\in\mathbb Zzk∈Z(共 K 个主题)。在给定文档集后,我们可以得到一个词-文档共现矩阵,每个元素 n(dm,wn)n(d_m,w_n)n(dm,wn) 表示的是词 wnw_nwn 在文档 dmd_mdm 中的词频。也就是说,pLSA 模型也是基于词-文档共现矩阵的,不考虑词序
pLSA 模型通过以下过程来生成文档(记号里全部省去了对参数的依赖):
(1) 以概率 P(dm)P(d_m)P(dm) 选