困惑度 (perplexity)

最新推荐文章于 2024-04-26 13:42:01 发布

Data+Science+Insight

最新推荐文章于 2024-04-26 13:42:01 发布

阅读量5.4k

点赞数

分类专栏：机器学习面试+横扫千军数据科学从0到1 文章标签：自然语言处理深度学习机器学习 nlp 数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhongkeyuanchongqing/article/details/116898480

版权

数据科学从0到1 同时被 2 个专栏收录

1640 篇文章 646 订阅 ¥69.90 ¥99.00

订阅专栏

超级会员免费看

机器学习面试+横扫千军

434 篇文章 141 订阅 ¥59.90 ¥99.00

订阅专栏

超级会员免费看

困惑度是衡量语言模型性能的重要指标，它表示模型面对数据的不确定性。困惑度越低，说明模型预测效果越好。在LDA模型中，最小困惑度对应的最佳主题数。此外，困惑度与交叉熵有关，常用于评估语言模型、概率分布和概率模型。较低的困惑度意味着模型能更准确地预测样本。

摘要由CSDN通过智能技术生成

困惑度 (perplexity)

在自然语言处理中，对于一个语言模型，一般用困惑度来衡量它的好坏，困惑度越低，说明语言模型面对一句话感到困惑的程度越低，语言模型就越好。

对于LDA模型，最常用的两个评价方法困惑度（Perplexity）、相似度（Corre）。

其中困惑度可以理解为对于一篇文章d，所训练出来的模型对文档d属于哪个主题有多不确定，这个不确定成都就是困惑度。困惑度越低，说明聚类的效果越好。

对于不同Topic所训练出来的模型，计算它的困惑度。最小困惑度所对应的Topic就是最优的主题数。

困惑度 (perplexity)

一种衡量指标，用于衡量模型 (#model)能够多好地完成任务。例如，假设任务是读取用户使用智能手机键盘输入字词时输入的前几个字母，然后列出一组可能的完整字词。此任务的困惑度 (P) 是：为了使列出的字词中包含用户尝试输入的实际字词，您需要提供的猜测项的个数。

困惑度与交叉熵 (#cross-entropy)的关系如下：

了解本专栏

超级会员免费看

Data+Science+Insight

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Data+Science+Insight 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。