【NLP系列3】主题模型LDA

一、LDA含义:

1、一种无监督的贝叶斯模型。
在训练时不需要手工含有label的训练集,仅仅给出文档集以及指定的主题数量k即可(如有100篇文章,需要划分为10个主题)
2、一种词袋模型。
它认为一篇文档是由一组词构成的一个集合,词与词之间不考虑顺序关系。一篇文档可以包含多个主题,文档中的每一个词都可以由其中的一个主题生成。(每个主题之间的词,无交集。)
3、一种主题模型。
它可以将文档集中的每篇文档的主题,按照一定概率分布的形式给出。(如对1篇文档进行主题判断,会生成一个10维向量,每个元素是对应主题的概率,概率最大的即为最终判定的主题类型)
4、对于每一个主题,均可以找出一些词语描述它。
!](https://img-blog.csdnimg.cn/20190329112909281.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NDM4ODY3OQ==,size_16,color_FFFFFF,t_70)

三、LDA核心:
以文档集合作为输入,训练出"文档—主题"分布和"主题—词"分布:
P ( 词 ∣ 文 档 ) = P ( 词 ∣ 主 题 ) ∗ P ( 主 题 ∣ 文 档 ) P(词 | 文档)=P(词 | 主题)*P(主题 | 文档) P()=PP ----P(词 | 文档)训练集里已知
P(w|d) = P(w|t)∗P(t|d) = ϕt /θd
四、LDA原理的深入理解:
1、LDA的生成过程:

  • 对于语料库中的每一篇文章:
    a.对每一篇文章,从主题分布中抽取一个主题(如下图左)<体育>
    b.从被抽到的主题所对应的单词分布中,抽取一个单词(如下图右) <跑步>
    (用体育*跑步去拟合这篇文档中跑步出现的概率,P(词|文档)=P(词|主题)*P(主题|文档))。如果不符合,执行第c步,调整分布;
    c.重复上述a过程,直到遍历文档中的每一个词
    d.重复上述d过程,直到遍历主题T中的每一个主题在这里插入图片描述

2、详细解释如下:
< w代表单词;d代表文档;t代表主题;大写代表集合,小写代表个体>
(a)D中每一个文档d看作一份单词序列<w1,w2,…,wn>,wi表示第i个单词。
(b)D中设计的所有不同单词组成一个词汇表大集合V(vocabulary,类似于词袋),LDA以文档集合D作为输入,希望训练出的两个结果向量θd,ϕt (假设形成k个topic,V中一共m个词):
(c)对于D中的每个文档d,对应到不同Topic的概率 θ ( d ) < p t 1 , p t 2 . . . p t i > \displaystyle \theta ( d) < p_{t_{1}} ,p_{t_{2}} ...p_{t_{i}} > θ(d)<pt1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值