困惑度 (perplexity)
在自然语言处理中,对于一个语言模型,一般用困惑度来衡量它的好坏,困惑度越低,说明语言模型面对一句话感到困惑的程度越低,语言模型就越好。
对于LDA模型,最常用的两个评价方法困惑度(Perplexity)、相似度(Corre)。
其中困惑度可以理解为对于一篇文章d,所训练出来的模型对文档d属于哪个主题有多不确定,这个不确定成都就是困惑度。困惑度越低,说明聚类的效果越好。
对于不同Topic所训练出来的模型,计算它的困惑度。最小困惑度所对应的Topic就是最优的主题数。
困惑度 (perplexity)
一种衡量指标,用于衡量模型 (#model)能够多好地完成任务。例如,假设任务是读取用户使用 智能手机键盘输入字词时输入的前几个字母,然后列出一组可能的完整字词。此任务的困惑 度 (P) 是:为了使列出的字词中包含用户尝试输入的实际字词,您需要提供的猜测项的个数。
困惑度与交叉熵 (#cross-entropy)的关系如下: