vsm,topic model,LDA比较

LDA还是比较适合处理短文本的。LDA相比其它使用VSM的模型 有效的降低的数据的稀疏性 将原来的特征空间映射到了一个新的topic的特征空间。

LDA的一个主要作用就是降维。降维之后 数据稀疏性明显降低了。

LDA是一种文本建模方法。告诉我们以怎样一种观点看待文本的生成过程。topic出来后,可以把它当做特征处理,相当于产生了一个新的特征空间。这时候,可以选择使用这些topic作为你分类或其它任务的特征或扩展特征。

 多项式分布是说 随机试验有K个可能的结果,每个结果对应一个概率值。之所以引入先验,是因为贝叶斯学派认为 这些概率值也是随机的,服从一定的概率分布。 
 之所以引入共轭,一来是后验分布比较容易计算,二来是可以形成一个先验链,就是现在的后验分布可以作为下一次计算的先验分布。
如果,似然是多项式分布,先验不是Dirichlet,那么,像Gibbs Sampling这种方法估计是很难计算的 
共轭指的是 似然和先验。如果后验和先验具有相同的函数形式,就说先验是似然的共轭先验

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值