LDA主题数
LDA
作为一种无监督学习方法,类似于k-means
聚类算法,需要给定超参数主题数K
,但如何评价主题数的优劣并无定论,一般采取人为干预、主题困惑度preplexing
和主题一致性得分coherence score
,本文介绍困惑度。
困惑度
在信息论中,perplexity
(困惑度)用来度量一个概率分布或概率模型预测样本的好坏程度。它也可以用来比较两个概率分布或概率模型。低困惑度的概率分布模型或概率模型能更好地预测样本。
1.概率分布的困惑度
定义离散概率分布的困惑度如下:
2 H ( p ) = 2 −