LDA还是比较适合处理短文本的。LDA相比其它使用VSM的模型 有效的降低的数据的稀疏性 将原来的特征空间映射到了一个新的topic的特征空间。
LDA的一个主要作用就是降维。降维之后 数据稀疏性明显降低了。
LDA是一种文本建模方法。告诉我们以怎样一种观点看待文本的生成过程。topic出来后,可以把它当做特征处理,相当于产生了一个新的特征空间。这时候,可以选择使用这些topic作为你分类或其它任务的特征或扩展特征。
多项式分布是说 随机试验有K个可能的结果,每个结果对应一个概率值。之所以引入先验,是因为贝叶斯学派认为 这些概率值也是随机的,服从一定的概率分布。
之所以引入共轭,一来是后验分布比较容易计算,二来是可以形成一个先验链,就是现在的后验分布可以作为下一次计算的先验分布。
如果,似然是多项式分布,先验不是Dirichlet,那么,像Gibbs Sampling这种方法估计是很难计算的
共轭指的是 似然和先验。如果后验和先验具有相同的函数形式,就说先验是似然的共轭先验
如果,似然是多项式分布,先验不是Dirichlet,那么,像Gibbs Sampling这种方法估计是很难计算的