从LDA&Topic开始

放开我我要学

已于 2024-04-29 15:17:30 修改

阅读量341

点赞数 5

文章标签：人工智能算法机器学习

于 2024-04-29 15:10:06 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44122457/article/details/138306181

版权

LDA模型（文档生成模型）本质上是一个概率模型，中包括了两个狄利克雷分布，分别是基于主题的文本分布和基于词语的主题分布。以及两个多项式分布，分别是文本的主题分布和主题的词语分布，LDA即document-topic-term。

文本划分为主题，主题切分成不同的词语，最后生成一个fake document。LDA最终计算的是一个机器生成某个组合的fake document的概率，找到最优的参数α和β。

在LDA模型中，捕捉文档、词语和主题之间的关系：

文档-词语矩阵：这个矩阵通常表示为词频（TF）或TF-IDF（词频-逆文档频率）矩阵。在这里，每一行代表一个文档，每一列代表一个词语。矩阵中的元素表示该词语在文档中出现的频率或重要性。这个矩阵用于输入到主题模型中，以发现文档集合中的潜在主题。
主题-词语矩阵：这个矩阵显示了每个主题中每个词语的出现概率。每一行代表一个主题，每一列代表一个词语。矩阵中的元素值较高表明该词语与对应的主题高度相关。
文档-主题矩阵：这个矩阵展示了每个文档中各主题的出现概率。每一行代表一个文档，每一列代表一个主题。矩阵中的元素表示该主题在特定文档中的重要性或比重。

LDA模型的目的是从文档集合中发现一组主题，每个主题是词汇的分布，这些词汇在语义上是相关的。LDA模型试图找到文档生成的潜在主题结构。

要使用LDA (Latent Dirichlet Allocation) 模型拟合文本数据，你需要先对文本进行预处理，转换为数值型特征（通常是词频或TF-IDF矩阵，即文档-词语矩阵），然后才能应用LDA模型(拟合LDA模型到文档-词语矩阵)。ps:代码中转化的是词频矩阵，TF-IDF矩阵要用其他代码

放开我我要学

关注

5
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

放开我我要学 CSDN认证博客专家 CSDN认证企业博客

码龄6年

8: 原创

131万+: 周排名

15万+: 总排名

9408: 访问

: 等级

195: 积分

101: 粉丝

110: 获赞

7: 评论

136: 收藏

私信

关注

热门文章

最新评论

网易云爬虫评论（Selenium 方式）——part 1 前端内容获取
2301_80019192: 有帮助
网易云爬虫评论——Part 3 老老实实搞逆向js逆向（参照其他大佬学习篇）
普通网友: 优质好文，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
网易云音乐评论——part 4 AES和RSA加密逆向
CSDN-Ada助手: 恭喜作者发布了第7篇博客，标题看起来十分吸引人！对于AES和RSA加密逆向的探讨，我觉得非常有深度和挑战性。希望作者可以继续保持创作的热情，不断探索更多关于加密技术的内容。或许可以考虑结合实际案例，分享一些加密技术在实际应用中的解决方案，让读者更好地理解和学习。期待您的下一篇作品！
网易云音乐评论——Part 5 通过获取的Json文件，然后绕过Javacrip直接获取数据
普通网友: 每当我阅读你的编程博客文章时，我总能感受到你的专业水平和耐心解答的精神。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
网易云音乐评论——part 4 AES和RSA加密逆向
普通网友: 支持一下，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。