LDA主题模型学习笔记

LDA(隐含狄利克雷分配)是一种主题模型,用于推测文档的主题分布并进行文本分析。它假设文档由多个主题组成,每个主题又包含一系列概率分布的词。LDA的核心公式连接了文档的主题分布θd和主题中的词分布φt,通过迭代更新找到概率最大的主题分配。算法起始时随机初始化θd和φt,然后不断调整以达到稳定状态,输出每个文档的主题概率分布和每个主题的词概率分布。
摘要由CSDN通过智能技术生成

LDA:隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA)
定义:
-它是一种主题模型,它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类。同时,它是一种典型的词袋模型,即一篇文档是由一组词构成,词与词之间没有先后顺序的关系


而当我们看到一篇文章后,往往喜欢推测这篇文章是如何生成的,我们可能会认为作者先确定这篇文章的几个主题,然后围绕这几个主题遣词造句,表达成文。
LDA就是要干这事:根据给定的一篇文档,推测其主题分布。
通俗来说,可以假定认为人类是根据上述文档生成过程写成了各种各样的文章,现在某小撮人想让计算机利用LDA干一件事:你计算机给我推测分析网络上各篇文章分别都写了些啥主题,且各篇文章中各个主题出现的概率大小(主题分布)是啥。
简单来说就是为一堆文章进行聚类(所以是非监督学习),一种topic就是一类,要聚成的topic数目是事先指定的。聚类的结果是一个概率,而不是布尔型的100%属于莫个类。
-最重要的两个分布:
–文档的主题分布:即对于每个D中的文档d,对应到不同topic的概率θd < pt1,…, ptk >其中,pti表示d对应T中第i个topic的概率。计算方法是直观的,pti=nti/n,其中nti表示d中对应第i个topic的词的数目,n是d中所有词的总数。
–主题中的词分布:即

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值