常用主题建模方法简单对比LSA&PLSA&LDA&HDP

几种常用的主题建模方法

潜在语义分析(LSA/I)
概率潜在语义分析(PLSA)
潜在狄利克雷分布(LDA)
层次狄利克雷过程(HDP)

LSA/I存在的主要问题

  • SVD计算非常耗时,尤其文本处理,词和文本数都是非常大的,对于这样的高维度矩阵做奇异值分解是非常难的;

  • 主题个数值的选取对结果的影响非常大,很难选择合适的k值;

  • LSI是基于矩阵分解的,得到的不是一个概率模型,缺乏统计基础,结果难以直观的解释。

几种方法间的关系

最近也是刚接触主题建模,根据在网上以及书籍和文献搜集资料,我个人作如下理解:
潜在语义分析(LSI)可以说是最经典(最老)的一种主题建模方法,他原理和步骤比较简单因此也存在比较多问题,就像上面列举的。因此,在它的基础上作了很多改进和发展。

  • 首先,针对上述LSI第三个问题点,PLSA模型通过一个生成模型来为LSA赋予了概率意义上的解释。

  • 而LDA又在PLSA的基础上,为主题分布和词分布分别加了两个Dirichlet先验,实际上LDA就是pLSA的贝叶斯版本,由其变种而得。但LDA不能捕获父子主题之间的关系。

  • 但是标准LDA模型中话题的个数K需要已知,然而很多时候确定K的大小是一件困难的事情,而HDP能够根据数据自动确定K的大小,且能捕获父子主题之间的关系。

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值