PLSA/PLSI(probabilistic latent semantic analysi,概率的潜在语义分析)
目录
1. PLSA概述
考虑到以单词和文档的共现 (w,d)形式进行的观察,PLSA将每次共现的概率建模为条件独立的多项分布的混合
其中'c'是单词的主题。值得注意的是,模型的主题数量是一个超参数,必须提前设置而不是从数据中估计。
第一个公式是对称式,其中 w和 d 都是以类似的方式从潜变量生成(基于条件概率
和
);
第二个公式是不对称的 ,对于每个文档 根据 有条件地从文档中选择潜在类
,然后根据
从该类生成一个单词。
虽然在这个例子中我们使用单词和文档建模,但是任何离散变量的共现也可以用完全相同的方式建模。
因此,模型参数的数量等于 cd+wc,参数数量随文档数量呈线性增长。此外,尽管PLSA是基于文档集的生成模型,但它并不是新文档的生成模型。
模型的参数使用最大期望算法(EM算法)学习得到。
2. PLSA模型