主题模型
LDA的解释
- 共有m篇文章,一共涉及了K个主题
- 每篇文章(长度为 N m N_m Nm)都有各自的主题分布,主题分布是多项分布,该多项分布的参数服从Dirichlet分布,该Dirichlet分布的参数为 α \alpha α;
- 每个主题都有各自的词分布,词分布为多项分布,该多项分布的参数服从Dirichlet分布,该Dirichlet分布的参数为 β \beta β;
- 对于某篇文章中的第n个词,首先从该文章的主题分布中采样一个主题,然后在这个主题对应的词分布中采样一个词。不断重复这个随机生成过程,直到m篇文章全部完成上述过程。
详细解释
- 字典中共有V个term(不可重复),这些term出现再具体的文章中,就是word——在具体某文章中word有可能重复;
- 语料库中共有m篇文档 d 1 , d 2 , . . . , d m d_1, d_2,...,d_m d1,d2,...,dm;
- 对于文档 d i d_i di,由 N i N_i