LDA主题模型(一)基本概念
LDA主题模型(二)Gibbs采样方法
LDA主题模型(三)变分方法
Gibbs采样过程
Gibbs采样可以从复杂的概率分布中生成数据,只需要知道每个分量相对其他分量的条件下就可以进行采样。具体可以看这篇博客
LDA的gibbs采样步骤是:初始随机给每个文档的每个词赋予一个主题,统计词与主题的信息得到 n ⃗ k \vec n_k nk和 n ⃗ m \vec n_m nm的值,然后计算对每个词 w i w_i wi(这里为方便,将 w i w_i wi代替 w m , n w_{m,n} wm,n)的主题概率 P ( z i ∣ z ¬ i , w ) P(z_i|z_{\neg i},w) P(zi∣z¬i,w),根据主题概率采样一个新主题赋予该词,然后同样方法更新下个词直到收敛。
选定超参 α , β \alpha, \beta α,β后,也给每个词赋予个一个主题并统计出 n ⃗ k \vec n_k nk、 n ⃗ m \vec n_m nm之后,如何计算采样依据的概率 P ( z i ∣ z ¬ i , w ) P(z_i|z_{\neg i},w) P(zi∣z¬i,w)呢?又该如何利用上篇博客求的联合概率呢?
假定此时是对某个词 w m , n = t ∗ ( 观 测 得 到 ) , z m , n = k ∗ ( 本 轮 赋 予 w i 的 主 题 序 号 为 k ∗ ) w_{m,n}=t^* (观测得到),\ z_{m,n}=k^* (本轮赋予w_i的主题序号为k^* ) wm,n=t∗(观测得到), zm,n=k∗(本轮赋予wi的主题序号为k∗)
其中 Δ ( n ⃗ k + β ⃗ ) = Γ ( n 1 + β 1 ) Γ ( n 2 + β 2 ) . . . Γ ( n t ∗ + β t ∗ ) . . . Γ ( n k V + β k V ) Γ [ ∑ t V ( n t + β t ) ] \Delta(\vec n_k+\vec \beta)=\frac{\Gamma(n^1+\beta^1)\Gamma(n^2+\beta^2)...\Gamma(n^{t^*}+\beta^{t^*})...\Gamma(n_k^V+\beta_k^V)}{\Gamma[\sum_t^V(n^{t}+\beta^{t})] } Δ(nk+β)=Γ[∑tV(nt+βt)]Γ(n1+β1)Γ(n2+β2)...Γ(nt∗+βt∗)...Γ(nkV+βkV)