以下内容均来自于对LDA漫游指南的理解
gibbs采样
为了使用gibbs采样,往往需要获得联合概率分布,最终是想得到这样一个条件概率分布
p(z⃗ |w⃗ ,α⃗ ,β⃗ )
,那么就要先得到联合概率分布
p(z⃗ ,w⃗ |α⃗ ,β⃗ )
。
以下就是如何得到
p(z⃗ ,w⃗ |α⃗ ,β⃗ )
首先将式子拆分成两块,
p(z⃗ ,w⃗ |α⃗ ,β⃗ )
=
p(w⃗ |z⃗ ,β⃗ )∗p(z⃗ |α⃗ )
p(w⃗ |z⃗ ,β⃗ )
=
∫p(w⃗ |z⃗ ,ϕ⃗ )∗p(ϕ⃗ |β⃗ )dϕ⃗
p(w⃗ |z⃗ ,ϕ⃗ )=∏i=1Wp(wi|zi)=∏k=1K∏i:zi=kp(wi=t|zi=k)=∏k=1K∏t=1Vϕntkk,t
其中 ϕk,t 表示主题k下出现词t的概率, ntk 表示主题k下词t出现的次数, zi=k 表示第i个词的主题是k,这里的W表示的是不去重的词的总个数,比如语料库只有两篇文章,第一篇文章有3个词,第二篇文章有4个词,那么W就是3+4=7个词。
p(w⃗ |z⃗ ,β)=∫p(w⃗ |z⃗ ,ϕ⃗ )∗p(ϕ⃗ |β⃗ )dϕ⃗ =∫∏k=1K∏t=1Vϕn(kt)k,t∗∏k=1K1Δ(β⃗ )∏t=1Vϕβt−1k,t=∫∏k=1K1Δ(β⃗ )∏t=1Vϕβt−1+n(tk)k,t=∏k=1KΔ(nk→+β⃗ )Δ(β⃗ )
此处的 nk→={n(kt)}Vt=1 , nk→ 表示在主题k中,词表V(去重复词后的词表)中每一个词出现的次数
============未完待续=========================