概率图模型
主题模型
基于词袋模型或N-gram模型的文本标识模型有一个明显的缺陷,就是无法识别出两个不同的词或词组具有相同的主题,因此产生了主题模型。主题模型能够将具有相同主题的词或词组映射到同一维度上去,是一种特殊的概率图模型。判断两个不同的词属于同一主题的依据可能是这两个词有更高的概率同时出现在同一篇文档中,或给定某一主题,这两个词的产生概率都比较高,而另一些不太相关的词汇产生的概率则较低。假设有K个主题,我们就把任意文章表示成一个K维的主题向量,其中向量的每一维代表一个主题,权重代表这篇文章属于这个特定主题的概率。主题模型所解决的事情就是从文本库中发现有代表性的主题(得到每个主题上词面的分布),并计算出每篇文章对应着哪些主题。
1、常见的主题模型及其原理
(1)pLSA
pLSA是用一个生成模型来建模文章的生成过程。假设有K个主题,M篇文章;对语料库中的任意文章d,假设该文正有N个词,则对于其中的每一个词,我们首先选择一个主题,然后在当前主题的基础上生成一个词w。图6.10是pLSA图模型。
生成主题z和词w的过程遵照一个确定的概率分布。设在文章d中生成主题z的概率为 p ( z ∣ d ) p(z|d) p(z∣d),在选定主题的条件下生成词w的概率为 p ( w ∣ z ) p(w|z) p(w∣z),则给定文章d,生成词w的概率可以写成: p ( w ∣ d ) = ∑ z p ( w ∣ z , d ) p ( z ∣ d ) p(w|d)=\sum_{z}p(w|z,d)p(z|d) p(w∣d)=∑zp(w∣z,d)p(z∣d)。简化一下,假设给定主题z的条件下,生成词w的概率是与特定文章无关的,则公式可以简化为: p ( w ∣ d ) = ∑ z p ( w ∣ z ) p ( z ∣ d ) p(w|d)=\sum_{z}p(w|z)p(z|d) p(w∣d)=∑zp(w∣z)p(z∣d)。整个语料库中的文本生成概率可以用似然还书表示为
其中 p ( d m , w n ) p(d_m,w_n) p(dm