原文地址http://blog.csdn.net/aws3217150 https://blog.csdn.net/aws3217150/article/details/53840029
LDA(Latent Dirichlet Allocation)主题模型
什么是主题
因为LDA是一种主题模型,那么首先必须明确知道LDA是怎么看待主题的。对于一篇新闻报道,我们看到里面讲了昨天NBA篮球比赛,那么用大腿想都知道它的主题是关于体育的。为什么我们大腿会那么聪明呢?这时大腿会回答因为里面出现了“科比”、“湖人”等等关键词。那么好了,我们可以定义主题是一种关键词集合,如果另外一篇文章出现这些关键词,我们可以直接判断他属于某种主题。但是,亲爱的读者请你想想,这样定义主题有什么弊端呢?按照这种定义,我们会很容易给出这样的条件:一旦文章出现了一个球星的名字,那么那篇文章的主题就是体育。可能你马上会骂我在瞎说,然后反驳说不一定,文章确实有球星的名字,但是里面全部在讲球星的性丑闻,和篮球没半毛钱关系,此时主题是娱乐还差不多。所以一个词不能硬性地扣一个主题的帽子,如果说一篇文章出现了某个球星的名字,我们只能说有很大概率他属于体育的主题,但也有小概率属于娱乐的主题。于是就会有这种现象:同一个词,在不同的主题背景下,它出现的概率是不同的。并且我们都可以基本确定,一个词不能代表一种主题,那么到底什么才是主题呢?耐不住性子的同学会说,既然一个词代表不了一种主题,那我就把所有词都用来代表一种主题,然后你自己去慢慢意会。没错,这样确实是一种完全的方式,主题本来就蕴含在所有词之中,这样确实是最保险的做法,但是你会发现这样等于什么都没做。老奸巨猾的LDA也是这么想的,但他狡猾之处在于它用非常圆滑手段地将主题用所有词汇表达出来。怎么个圆滑法呢?手段便是概率。LDA认为天下所有文章都是用基本的词汇组合而成,此时假设有词库V={v1,v2,....,vn}V={v1,v2,....,vn}LDA就是这样说明什么是主题的,竟说得我无言以对,细思之下也是非常合理。
文章在讲什么
给你一篇文章读,然后请你简要概括文章在讲什么,你可能会这样回答:80%在讲政治的话题,剩下15%在讲娱乐,其余都是废话。这里大概可以提炼出三种主题:政治,娱乐,废话。也就是说,对于某一篇文章,很有可能里面不止在讲一种主题,而是几种主题混在一起的。读者可能会问,LDA是一种可以从文档中提炼主题模型,那他在建模的时候有没有考虑这种情形啊,他会不会忘记考虑了。那您就大可放心了,深谋远虑的LDA早就注意到这些了。LDA认为,文章和主题之间并不一定是一一对应的,也就是说,文章可以有多个主题,一个主题可以在多篇文章之中。这种说法,相信读者只能点头称是。假设现在有KK也就是说,一篇文章在讲什么,通过不同的主题比例就可以概括得出。
文章是如何生成的
在前面两小节中,LDA认为,每个主题会对应一个词汇分布,而每个文档会对应一个主题分布,那么一篇文章是如何被写出来的呢?读者可能会说靠灵感+词汇。LDA脸一沉,感觉完蛋,灵感是什么玩意?LDA苦思冥想,最后没办法,想了个馊主意,它说
- 确定主题和词汇的分布
- 确定文章和主题的分布
- 随机确定该文章的词汇个数NN执行第5步,否则执行第6步
- 由文档和主题分布随机生成一个主题,通过该主题由主题和词汇分布随机生成一个词,继续执行第4步
- 文章生成结束
只要确定好两个分布(主题与词汇分布,文章与主题分布),然后随机生成文章各个主题比例,再根据各个主题随机生成词,词与词之间的顺序关系被彻底忽略了,这就是LDA眼中世间所有文章的生成过程!聪明的读者肯定觉得LDA完全就是一个骗子,这样认为文章的生成未免也太过天真了吧。然而事实就是如此,这也是为什么说LDA是一个很简单的模型。幸好我们这是用LDA来做主题分析,而不是用来生成文章,而从上上节的分析我们知道,主题其实就是一种词汇分布,这里并不涉及到词与词的顺序关系,所以LDA这种BOW(bag of words)的模型也是有它的简便和实用之处的。
LDA数学分析
上一小节,我们忽略了一个问题,就是如何确定主题和词汇分布,还有文档与词汇的分布,但是要搞明白这个问题,就避免不了一些数学分析了。再次强烈推荐rickjin的《LDA数学八卦》还有Gregor Heinrich有著名的《Parameter estimation for text analysis》。此处我只做一些关键扼要的理论推导 :-)
多项式分布
回忆一下概率论学的东西,假设一个罐子里有红黄两种球,随机抽取抽到红球的概率是ppLDA出来说话了:主题和词汇的分布就是多项式分布!因为一个主题里面不同词汇出现的概率不同,如果只有1个词汇,那么它就是二项分布,但是词汇不可能只有1个,所以它理所当然就是符合多项式分布。这是挺合理的假设,反正我们现在研究的内容是为词汇按主题给出不同的概率分布,其实也就是给出不同词汇在不同主题下的出现比例,我们并不关系词汇之间的顺序关系,所以多项式分布已经很好地刻画出这种关系了。LDA又说:文章和主题之间的分布也是符合多项式分布!因为一篇文章要确定不同主题的出现概率,和主题要确定每个词汇的出现概率是完全可以类比的!思考一下我们也接受了LDA的说法,接下来我们介绍一些记号:
- VV个词
对于第mm即可。
Dirichlet分布
忘记告诉大家,LDA属于江湖中的贝叶斯学派,在贝叶斯学派眼中,像上面提到的ϕk→ϕk→篇文章其生成的边缘概率为: