LSI(潜在语义索引)主题建模简介

一、潜在语义索引(Latent Semantic Indexing,以下简称LSI)

(一)简介
有的文章也叫Latent Semantic Analysis(LSA)。在这里我称做LSI,它是一种简单实用的主题模型,也是最早出现的主题模型了,它的算法原理很简单,是基于奇异值分解(SVD)的方法来得到文本的主题的。一次奇异值分解就可以得到主题模型,同时解决词义的问题,非常漂亮。但是LSI有很多不足,导致它在当前实际的主题模型中已基本不再使用。
(二)应用
得出文本的主题模型;
通过LSI得到的文本主题矩阵可以用于文本相似度计算,而计算方法一般是通过余弦相似度;
(三)存在的问题
1) SVD计算非常的耗时,尤其是我们的文本处理,词和文本数都是非常大的,对于这样的高维度矩阵做奇异值分解是非常难的。

2) 主题值的选取对结果的影响非常大,很难选择合适的k值。

3) LSI得到的不是一个概率模型,缺乏统计基础,结果难以直观的解释。

二、SVD(奇异值分解)

(一)什么是奇异值
奇异值是矩阵里的概念,一般通过奇异值分解定理求得。设A为m×n阶矩阵,q=min(m,n),A*A的q个非负特征值的算术平方根叫作A的奇异值。奇异值分解是线性代数和矩阵论中一种重要的矩阵分解法,适用于信号处理和统计学等领域。(来源:百度百科
(二)奇异值分解(Singular Value Decomposition)
奇异值分解(Singular Value Decomposition,以下简称SVD)是在机器学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域,是很多机器学习算法的基石。
1.知识基础(线性代数):
特征值和特征向量
在这里插入图片描述其中A是一个n×n的实对称矩阵,x是一个n维向量,则我们说λ是矩阵A的一个特征值,而x是矩阵A的特征值λ所对应的特征向量。
矩阵的特征分解
具体见:https://www.cnblogs.com/pinard/p/6251584.html

参考:
https://www.cnblogs.com/pinard/p/6805861.html

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: lsi_tim_measure是一个在语料库中进行主题建模主题相关度计算的功能。由于主题建模要求对语料库中的文本进行分析和整理,所以lsi_tim_measure可以帮助用户进行主题相关度的评估和比较。 首先,lsi_tim_measure使用潜在语义索引LSI算法对语料库中的文本进行降维处理。这个过程通过构建文档-主题矩阵来表示每个文档的主题分布和每个主题的词汇分布。通过使用LSI算法lsi_tim_measure可以将高维的文本数据降低到低维的空间中,从而去除噪音和冗余信息,提取出文本的潜在语义。 然后,lsi_tim_measure根据主题模型的结果计算文本之间的主题相关度。通过计算文档之间的余弦相似度,lsi_tim_measure可以量化不同文档之间的主题接近程度。在这个过程中,lsi_tim_measure会考虑到每个主题的权重和重要性,从而获取更准确的主题相关度评估结果。 最后,lsi_tim_measure可以根据计算得到的主题相关度进行主题的排序和比较。用户可以通过这个功能,对语料库中的文本进行主题分类和检索。只需要输入一个查询文本,lsi_tim_measure就能够从语料库中找出与其主题相关的文本,用户可以根据相关度进行排序和筛选。 综上所述,lsi_tim_measure不仅可以进行主题建模主题相关度计算,还提供了主题分类和检索的功能。可以帮助用户更好地理解和利用语料库中的文本信息。 ### 回答2: lsi_tim_measure是一个用于测量时间的工具或方法。LSI代表Latent Semantic Indexing,简单来说,它是一种通过计算关键词之间的语义相似度来理解和组织文本的技术。tim_measure是时间测量的意思。 LSI_tim_measure可能是指使用LSI方法来对时间相关的信息进行测量以获得相关结果。LSI方法可以帮助我们从大量的文本数据中提取出时间信息,并对其进行量化和分析。 举个例子,如果我们有大量的新闻文章,其中包含了许多关于事件发生时间的描述,那么我们可以使用LSI_tim_measure方法来提取这些时间信息并进一步进行聚类、分析或可视化。 LSI_tim_measure可以提供许多有用的功能。首先,它可以帮助我们检测和解决文本数据中的时间相关问题,例如时间戳错误、时间序列不一致等。其次,它可以帮助我们更好地理解文本数据中的时间关系,并据此做出相关的决策或预测。最后,LSI_tim_measure还可以用于构建时间相关的智能系统,例如航班预订系统、天气预报系统等。 总之,LSI_tim_measure是一个利用LSI方法来测量时间的工具或方法。它可以帮助我们从文本数据中提取并分析时间相关的信息,从而更好地理解文本数据的时间特征,并在此基础上做出相关的决策和预测。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值