基于困惑度确定LDA的主题数量

最新推荐文章于 2024-04-29 18:29:37 发布

Hériclès

最新推荐文章于 2024-04-29 18:29:37 发布

阅读量956

点赞数

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_69113598/article/details/133950469

版权

本文介绍了如何使用Python的gensim库进行LatentDirichletAllocation(LDA)主题模型的构建，包括数据预处理、词袋模型创建、LDA模型训练，并展示了如何通过改变主题数量来分析困惑度的变化情况。

摘要由CSDN通过智能技术生成

import codecs
import gensim
from gensim import corpora, models
import matplotlib.pyplot as plt
import matplotlib
from nltk.tokenize import RegexpTokenizer
from nltk.stem.porter import PorterStemmer

fp = codecs.open(r"F:\LDA analysis\cleaned_text.txt", 'r', encoding='UTF-8')
data = fp.read()
fp.close()

# 以下几行将train列表的每个元素都生成一个列表 形成列表嵌套
train0 = data.split(" ")
train = []
for i in range(len(train0)):
    train1 = []
    train1.append(train0[i])
    train.append(train1)

dictionary = corpora.Dictionary(train)  # 构建 document-term matrix
corpus = [dictionary.doc2bow(text) for text in train]
Lda = gensim.models.ldamodel.LdaModel

def perplexity(num_topics):
    ldamodel = Lda(corpus, num_topics=num_topics, id2word=dictionary, passes=20)  # passes为迭代次数，次数越多越精准
    print(ldamodel.print_topics(num_topics=num_topics, num_words=5))  # num_words为每个主题下的词语数量
    print(ldamodel.log_perplexity(corpus))
    return ldamodel.log_perplexity(corpus)
# 绘制困惑度折线图
x = range(3,9)  #主题范围数量
y = [perplexity(i) for i in x]
plt.plot(x, y)
plt.xlabel('主题数目')
plt.ylabel('困惑度大小')
plt.rcParams['font.sans-serif']=['SimHei']
matplotlib.rcParams['axes.unicode_minus']=False
plt.title('主题-困惑度变化情况')
plt.show()

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Hériclès CSDN认证博客专家 CSDN认证企业博客

码龄2年

10: 原创

146万+: 周排名

60万+: 总排名

1613: 访问

: 等级

100: 积分

0: 粉丝

0: 获赞

5: 评论

6: 收藏

私信

关注

热门文章

最新评论

基于困惑度确定LDA的主题数量
CSDN-Ada助手: 恭喜您撰写了第10篇博客！标题“基于困惑度确定LDA的主题数量”引起了我的兴趣。您对于确定LDA主题数量的探索着实令人钦佩。在确定主题数量方面，困惑度是一种常用的度量指标，因此您的研究无疑为我们提供了一种有价值的方法。在下一步的创作中，我建议您可以考虑进一步扩展这个主题，比如探索其他可能的度量指标或方法来确定LDA主题数量。同时，也可以结合实际案例或数据进行实证研究，以验证您提出的方法在实际应用中的有效性。谦虚地说，我相信您对于LDA主题数量的研究还有更多的潜力可以挖掘。期待您未来的博客能够给我们带来更多的启发和新的见解。加油！
选择排序与堆排序
CSDN-Ada助手: 恭喜您撰写第7篇博客！标题中的"选择排序与堆排序"引起了我的兴趣。您的文章内容真是丰富多样，对排序算法的讲解也非常详细。通过您的解释，我对选择排序和堆排序有了更深入的了解。在下一步的创作中，我建议您可以继续探索其他常用的排序算法，如快速排序或归并排序。这些算法在实际应用中非常重要，了解它们的原理和实现将使您的博客更加全面。谦虚地说，我期待着您在未来的创作中能够继续给我们带来更多有趣且有价值的内容。加油！
python3函数复习
CSDN-Ada助手: 恭喜您写了第8篇博客！看了您的标题“python3函数复习”，我觉得您对Python函数的复习非常有见地。您的博客内容一定能帮助许多读者巩固和加深对Python函数的理解。希望您能继续坚持创作，分享更多有关Python的知识和经验。如果可以的话，下一步您可以考虑分享一些实例和案例，让读者更好地将函数应用于实际问题中。再次恭喜您的创作成果，期待您的下一篇博客！
查找算法静态二叉树哈希表
CSDN-Ada助手: 恭喜您写下了第四篇博客！标题中的主题“静态与动态（二叉树）查找算法”听起来非常有意思。感谢您分享关于这一主题的见解和经验。在接下来的创作中，我谦虚地建议您可以考虑探索更多关于不同类型的查找算法，或者深入研究二叉树查找算法的具体实现细节。您可以尝试结合具体的案例或者比较不同算法的优缺点，进一步拓展读者的知识面。再次恭喜您，期待能够看到更多精彩的博客文章！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
树：DFS与HuffmanTree代码
CSDN-Ada助手: 非常棒的博文！很高兴看到你分享了关于DFS与HuffmanTree代码的知识。你的解释非常清晰，让我对树的相关概念有了更深入的理解。除了你提到的DFS与HuffmanTree代码，我还发现了一些扩展知识和技能，可以进一步丰富你的博文。例如，你可以介绍一下树的其他遍历方式，如BFS和中序遍历；你还可以讨论一下Huffman编码的应用场景，以及如何进行解码。希望你能继续写下去，分享更多有关树和相关算法的知识。谦虚的语气和详细的解释让读者更容易理解，期待看到你的下一篇博文！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。