文本主题模型之潜在语义索引(LSI)

最新推荐文章于 2021-12-29 15:35:47 发布

多尝试多记录多积累

最新推荐文章于 2021-12-29 15:35:47 发布

阅读量617

点赞数

好文章的搬运工：https://www.cnblogs.com/pinard/p/6805861.html

先对矩阵做SVD分解，然后利用V矩阵，计算LSI，LSI得到的文本主题矩阵可以用于文本相似度计算。而计算方法一般是通过余弦相似度。需要选取主题的k值。

LSI是最早出现的主题模型了，它的算法原理很简单，一次奇异值分解就可以得到主题模型，同时解决词义的问题，非常漂亮。但是LSI有很多不足，导致它在当前实际的主题模型中已基本不再使用。

　　　　主要的问题有：

　　　　1） SVD计算非常的耗时，尤其是我们的文本处理，词和文本数都是非常大的，对于这样的高维度矩阵做奇异值分解是非常难的。

　　　　2）主题值的选取对结果的影响非常大，很难选择合适的k值。

　　　　3） LSI得到的不是一个概率模型，缺乏统计基础，结果难以直观的解释。

回到LSI本身，对于一些规模较小的问题，如果想快速粗粒度的找出一些主题分布的关系，则LSI是比较好的一个选择，其他时候，如果你需要使用主题模型，推荐使用LDA和HDP。

多尝试多记录多积累

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
文本主题模型之潜在语义索引(LSI)

好文章的搬运工：https://www.cnblogs.com/pinard/p/6805861.html先对矩阵做SVD分解，然后利用V矩阵，计算LSI，LSI得到的文本主题矩阵可以用于文本相似度计算。而计算方法一般是通过余弦相似度。需要选取主题的k值。LSI是最早出现的主题模型了，它的算法原理很简单，一次奇异值分解就可以得到主题模型，同时解决词义的问题，非常漂亮。但是LSI有很多...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。