LDA主题模型学习笔记

最新推荐文章于 2021-08-08 21:31:50 发布

走天涯_1

最新推荐文章于 2021-08-08 21:31:50 发布

阅读量1.8k

点赞数

分类专栏： nlp

本文链接：https://blog.csdn.net/zhangyu132/article/details/52143494

版权

LDA（隐含狄利克雷分配）是一种主题模型，用于推测文档的主题分布并进行文本分析。它假设文档由多个主题组成，每个主题又包含一系列概率分布的词。LDA的核心公式连接了文档的主题分布θd和主题中的词分布φt，通过迭代更新找到概率最大的主题分配。算法起始时随机初始化θd和φt，然后不断调整以达到稳定状态，输出每个文档的主题概率分布和每个主题的词概率分布。

摘要由CSDN通过智能技术生成

LDA：隐含狄利克雷分布（Latent Dirichlet Allocation，简称LDA）
定义:
-它是一种主题模型，它可以将文档集中每篇文档的主题以概率分布的形式给出，从而通过分析一些文档抽取出它们的主题（分布）出来后，便可以根据主题（分布）进行主题聚类或文本分类。同时，它是一种典型的词袋模型，即一篇文档是由一组词构成，词与词之间没有先后顺序的关系。

而当我们看到一篇文章后，往往喜欢推测这篇文章是如何生成的，我们可能会认为作者先确定这篇文章的几个主题，然后围绕这几个主题遣词造句，表达成文。
LDA就是要干这事：根据给定的一篇文档，推测其主题分布。
通俗来说，可以假定认为人类是根据上述文档生成过程写成了各种各样的文章，现在某小撮人想让计算机利用LDA干一件事：你计算机给我推测分析网络上各篇文章分别都写了些啥主题，且各篇文章中各个主题出现的概率大小（主题分布）是啥。
简单来说就是为一堆文章进行聚类（所以是非监督学习),一种topic就是一类，要聚成的topic数目是事先指定的。聚类的结果是一个概率，而不是布尔型的100%属于莫个类。
-最重要的两个分布：
–文档的主题分布：即对于每个D中的文档d,对应到不同topic的概率θd < pt1,…, ptk >其中，pti表示d对应T中第i个topic的概率。计算方法是直观的，pti=nti/n，其中nti表示d中对应第i个topic的词的数目，n是d中所有词的总数。
–主题中的词分布：即