自然语言处理之话题建模:Latent Semantic Analysis (LSA):LSA在文本相似度计算中的应用
自然语言处理之话题建模:Latent Semantic Analysis (LSA):LSA在文本相似度计算中的应用
一、引言
1.1 话题建模简介
话题建模是一种统计建模方法,用于发现文档集合或语料库中抽象的话题。它是一种无监督学习技术,能够自动识别文本中的主题结构,而无需事先定义这些主题。话题建模在信息检索、文本挖掘、自然语言处理等领域有着广泛的应用,如文档分类、文本摘要、推荐系统等。
1.2 LSA的基本概念
Latent Semantic Analysis(LSA,潜在语义分析)是一种基于矩阵分解的话题建模技术。LSA通过分析文档中词的共现频率,将文档和词映射到一个低维的潜在语义空间中,