LDA主题模型

最新推荐文章于 2020-08-18 23:33:55 发布

苏星宇哇

最新推荐文章于 2020-08-18 23:33:55 发布

阅读量289

点赞数 1

分类专栏： LDA 文章标签：主题模型

LDA 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

原文地址http://blog.csdn.net/aws3217150 https://blog.csdn.net/aws3217150/article/details/53840029

原

LDA(Latent Dirichlet Allocation)主题模型

2016年12月24日 16:22:09 Carl-Xie 阅读数：33748

													<span class="tags-box artic-tag-box">
							<span class="label">标签：</span>
															<a data-track-click="{&quot;mod&quot;:&quot;popu_626&quot;,&quot;con&quot;:&quot;LDA&quot;}" class="tag-link" href="http://so.csdn.net/so/search/s.do?q=LDA&amp;t=blog" target="_blank">LDA																</a><a data-track-click="{&quot;mod&quot;:&quot;popu_626&quot;,&quot;con&quot;:&quot;主题模型&quot;}" class="tag-link" href="http://so.csdn.net/so/search/s.do?q=主题模型&amp;t=blog" target="_blank">主题模型																</a>
						<span class="article_info_click">更多</span></span>
																				<div class="tags-box space">
							<span class="label">个人分类：</span>
															<a class="tag-link" href="https://blog.csdn.net/aws3217150/article/category/5963811" target="_blank">机器学习																</a>
						</div>
																							</div>
			<div class="operating">
								</div>
		</div>
	</div>
</div>
<article class="baidu_pl">
	<div id="article_content" class="article_content clearfix csdn-tracking-statistics" data-pid="blog" data-mod="popu_307" data-dsm="post">
							<div class="article-copyright">
              					
				版权声明：欢迎转载，原文地址http://blog.csdn.net/aws3217150					https://blog.csdn.net/aws3217150/article/details/53840029				</div>
							            <div id="content_views" class="markdown_views prism-atom-one-dark">
						<!-- flowchart 箭头图标 勿删 -->
						<svg xmlns="http://www.w3.org/2000/svg" style="display: none;"><path stroke-linecap="round" d="M5,0 0,2.5 5,5z" id="raphael-marker-block" style="-webkit-tap-highlight-color: rgba(0, 0, 0, 0);"></path></svg>
						<p>LDA于2003年由 David Blei, Andrew Ng和 Michael I. Jordan提出，因为模型的简单和有效，掀起了主题模型研究的波浪。虽然说LDA模型简单，但是它的数学推导却不是那么平易近人，一般初学者会深陷数学细节推导中不能自拔。于是牛人们看不下去了，纷纷站出来发表了各种教程。国内方面rickjin有著名的《<a href="http://www.52nlp.cn/author/rickjin" rel="nofollow" target="_blank">LDA数学八卦</a>》，国外的Gregor Heinrich有著名的《<a href="https://users.soe.ucsc.edu/~amichelo/docs/text-est2.pdf" rel="nofollow" target="_blank">Parameter estimation for text analysis</a>》。其实有了这两篇互补的通俗教程，大家沉住心看个4、5遍，基本就可以明白LDA为什么是简单的了。那么其实也没我什么事了，然而心中总有一种被大牛点播的豁然开朗的快感，实在是不吐不快啊。</p>

什么是主题

因为LDA是一种主题模型，那么首先必须明确知道LDA是怎么看待主题的。对于一篇新闻报道，我们看到里面讲了昨天NBA篮球比赛，那么用大腿想都知道它的主题是关于体育的。为什么我们大腿会那么聪明呢？这时大腿会回答因为里面出现了“科比”、“湖人”等等关键词。那么好了，我们可以定义主题是一种关键词集合，如果另外一篇文章出现这些关键词，我们可以直接判断他属于某种主题。但是，亲爱的读者请你想想，这样定义主题有什么弊端呢？按照这种定义，我们会很容易给出这样的条件：一旦文章出现了一个球星的名字，那么那篇文章的主题就是体育。可能你马上会骂我在瞎说，然后反驳说不一定，文章确实有球星的名字，但是里面全部在讲球星的性丑闻，和篮球没半毛钱关系，此时主题是娱乐还差不多。所以一个词不能硬性地扣一个主题的帽子，如果说一篇文章出现了某个球星的名字，我们只能说有很大概率他属于体育的主题，但也有小概率属于娱乐的主题。于是就会有这种现象：同一个词，在不同的主题背景下，它出现的概率是不同的。并且我们都可以基本确定，一个词不能代表一种主题，那么到底什么才是主题呢？耐不住性子的同学会说，既然一个词代表不了一种主题，那我就把所有词都用来代表一种主题，然后你自己去慢慢意会。没错，这样确实是一种完全的方式，主题本来就蕴含在所有词之中，这样确实是最保险的做法，但是你会发现这样等于什么都没做。老奸巨猾的LDA也是这么想的，但他狡猾之处在于它用非常圆滑手段地将主题用所有词汇表达出来。怎么个圆滑法呢？手段便是概率。LDA认为天下所有文章都是用基本的词汇组合而成，此时假设有词库V={v1,v2,....,vn}LDA就是这样说明什么是主题的，竟说得我无言以对，细思之下也是非常合理。

文章在讲什么

给你一篇文章读，然后请你简要概括文章在讲什么，你可能会这样回答：80%在讲政治的话题，剩下15%在讲娱乐，其余都是废话。这里大概可以提炼出三种主题：政治，娱乐，废话。也就是说，对于某一篇文章，很有可能里面不止在讲一种主题，而是几种主题混在一起的。读者可能会问，LDA是一种可以从文档中提炼主题模型，那他在建模的时候有没有考虑这种情形啊，他会不会忘记考虑了。那您就大可放心了，深谋远虑的LDA早就注意到这些了。LDA认为，文章和主题之间并不一定是一一对应的，也就是说，文章可以有多个主题，一个主题可以在多篇文章之中。这种说法，相信读者只能点头称是。假设现在有K也就是说，一篇文章在讲什么，通过不同的主题比例就可以概括得出。

文章是如何生成的

在前面两小节中，LDA认为，每个主题会对应一个词汇分布，而每个文档会对应一个主题分布，那么一篇文章是如何被写出来的呢？读者可能会说靠灵感+词汇。LDA脸一沉，感觉完蛋，灵感是什么玩意？LDA苦思冥想，最后没办法，想了个馊主意，它说

灵 感 = 随 机

这也是没办法中的办法。因此对于某一篇文章的生产过程是这样的：

确定主题和词汇的分布
确定文章和主题的分布
随机确定该文章的词汇个数N执行第5步，否则执行第6步
由文档和主题分布随机生成一个主题，通过该主题由主题和词汇分布随机生成一个词，继续执行第4步
文章生成结束

只要确定好两个分布(主题与词汇分布，文章与主题分布)，然后随机生成文章各个主题比例，再根据各个主题随机生成词，词与词之间的顺序关系被彻底忽略了，这就是LDA眼中世间所有文章的生成过程！聪明的读者肯定觉得LDA完全就是一个骗子，这样认为文章的生成未免也太过天真了吧。然而事实就是如此，这也是为什么说LDA是一个很简单的模型。幸好我们这是用LDA来做主题分析，而不是用来生成文章，而从上上节的分析我们知道，主题其实就是一种词汇分布，这里并不涉及到词与词的顺序关系，所以LDA这种BOW(bag of words)的模型也是有它的简便和实用之处的。

LDA数学分析

上一小节，我们忽略了一个问题，就是如何确定主题和词汇分布，还有文档与词汇的分布，但是要搞明白这个问题，就避免不了一些数学分析了。再次强烈推荐rickjin的《LDA数学八卦》还有Gregor Heinrich有著名的《Parameter estimation for text analysis》。此处我只做一些关键扼要的理论推导 :-)

多项式分布

回忆一下概率论学的东西，假设一个罐子里有红黄两种球，随机抽取抽到红球的概率是pLDA出来说话了：主题和词汇的分布就是多项式分布！因为一个主题里面不同词汇出现的概率不同，如果只有1个词汇，那么它就是二项分布，但是词汇不可能只有1个，所以它理所当然就是符合多项式分布。这是挺合理的假设，反正我们现在研究的内容是为词汇按主题给出不同的概率分布，其实也就是给出不同词汇在不同主题下的出现比例，我们并不关系词汇之间的顺序关系，所以多项式分布已经很好地刻画出这种关系了。LDA又说：文章和主题之间的分布也是符合多项式分布！因为一篇文章要确定不同主题的出现概率，和主题要确定每个词汇的出现概率是完全可以类比的！思考一下我们也接受了LDA的说法，接下来我们介绍一些记号：