【NLP系列3】主题模型LDA

最新推荐文章于 2024-03-27 12:14:36 发布

马苏比拉米G

最新推荐文章于 2024-03-27 12:14:36 发布

阅读量535

点赞数 1

分类专栏： NLP 文章标签： NLP

本文链接：https://blog.csdn.net/weixin_44388679/article/details/88888051

版权

一、LDA含义：

1、一种无监督的贝叶斯模型。
在训练时不需要手工含有label的训练集，仅仅给出文档集以及指定的主题数量k即可（如有100篇文章，需要划分为10个主题）
2、一种词袋模型。
它认为一篇文档是由一组词构成的一个集合，词与词之间不考虑顺序关系。一篇文档可以包含多个主题，文档中的每一个词都可以由其中的一个主题生成。（每个主题之间的词，无交集。）
3、一种主题模型。
它可以将文档集中的每篇文档的主题，按照一定概率分布的形式给出。（如对1篇文档进行主题判断，会生成一个10维向量，每个元素是对应主题的概率，概率最大的即为最终判定的主题类型）
4、对于每一个主题，均可以找出一些词语描述它。
!](https://img-blog.csdnimg.cn/20190329112909281.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NDM4ODY3OQ==,size_16,color_FFFFFF,t_70)

三、LDA核心：
以文档集合作为输入，训练出"文档—主题"分布和"主题—词"分布：
$P (词 ∣ 文档) = P （词 ∣ 主题） * P （主题 ∣ 文档）$ ----P(词 | 文档)训练集里已知
P(w|d) = P(w|t)∗P(t|d) = ϕt /θd
四、LDA原理的深入理解：
1、LDA的生成过程：

对于语料库中的每一篇文章：
a.对每一篇文章，从主题分布中抽取一个主题（如下图左）<体育>
b.从被抽到的主题所对应的单词分布中，抽取一个单词（如下图右） <跑步>
（用体育*跑步去拟合这篇文档中跑步出现的概率，P(词|文档)=P(词|主题)*P(主题|文档))。如果不符合，执行第c步，调整分布；
c.重复上述a过程，直到遍历文档中的每一个词
d.重复上述d过程，直到遍历主题T中的每一个主题

2、详细解释如下：
< w代表单词；d代表文档；t代表主题；大写代表集合，小写代表个体>
（a）D中每一个文档d看作一份单词序列<w1,w2,…,wn>，wi表示第i个单词。
（b）D中设计的所有不同单词组成一个词汇表大集合V（vocabulary,类似于词袋），LDA以文档集合D作为输入，希望训练出的两个结果向量θd，ϕt （假设形成k个topic,V中一共m个词）：
（c）对于D中的每个文档d，对应到不同Topic的概率 $\displaystyle \theta ( d) < p_{t_{1}} ,p_{t_{2}} ...p_{t_{i}} >$