主题模型LDA（二）gibbs采样方法_主题模型(二)-CSDN博客

本文链接：https://blog.csdn.net/xuqn0606/article/details/83753835

LDA主题模型(一)基本概念
LDA主题模型(二)Gibbs采样方法
LDA主题模型(三)变分方法

Gibbs采样过程

Gibbs采样可以从复杂的概率分布中生成数据，只需要知道每个分量相对其他分量的条件下就可以进行采样。具体可以看这篇博客
　　LDA的gibbs采样步骤是：初始随机给每个文档的每个词赋予一个主题，统计词与主题的信息得到 $\vec n_k$ 和 $\vec n_m$ 的值，然后计算对每个词 $w_i$ (这里为方便,将 $w_i$ 代替 $w_{m,n}$ )的主题概率 $P(z_i|z_{\neg i},w)$ ,根据主题概率采样一个新主题赋予该词，然后同样方法更新下个词直到收敛。
　　选定超参 $\alpha, \beta$ 后，也给每个词赋予个一个主题并统计出 $\vec n_k$ 、 $\vec n_m$ 之后，如何计算采样依据的概率 $P(z_i|z_{\neg i},w)$ 呢？又该如何利用上篇博客求的联合概率呢？
　　
　　在这里插入图片描述
　　假定此时是对某个词 $w_{m,n}=t^* (观测得到)，\ z_{m,n}=k^* (本轮赋予w_i的主题序号为k^* )$
　　其中 $\Delta(\vec n_k+\vec \beta)=\frac{\Gamma(n^1+\beta^1)\Gamma(n^2+\beta^2)...\Gamma(n^{t^*}+\beta^{t^*})...\Gamma(n_k^V+\beta_k^V)}{\Gamma[\sum_t^V(n^{t}+\beta^{t})] }$