自然语言处理之话题建模：Latent Semantic Analysis (LSA)：词频-逆文档频率(TF-IDF)计算

zhubeibei168

于 2024-09-26 20:14:30 发布

阅读量566

点赞数 18

分类专栏：自然语言处理文章标签：自然语言处理 tf-idf easyui

本文链接：https://blog.csdn.net/zhubeibei168/article/details/142576751

版权

自然语言处理专栏收录该内容

90 篇文章 1 订阅

订阅专栏

自然语言处理之话题建模：Latent Semantic Analysis (LSA)：词频-逆文档频率(TF-IDF)计算

在这里插入图片描述

自然语言处理简介

NLP的基本概念

自然语言处理（Natural Language Processing，简称NLP）是计算机科学领域与人工智能领域中的一个重要方向。它研究如何处理和运用自然语言；自然语言认知则是指让计算机“懂”人类的语言。NLP建立在语言学、计算机科学和数学统计学的基础之上，旨在使计算机能够理解、解释和生成人类语言。

词袋模型（Bag of Words）

词袋模型是一种简单的文本表示方法，它将文本中的词汇作为特征，忽略词汇出现的顺序，只考虑词汇的出现频率。例如，对于以下两篇文档：

“我喜欢吃苹果和香蕉”
“我喜欢吃香蕉和苹果”

使用词袋模型表示，两篇文档将被视为相同，因为它们包含相同的词汇，尽管词汇的顺序不同。

TF-IDF（词频-逆文档频率）

TF-IDF是一种用于信息检索与数据挖掘的常用加权技术。TF（Term Frequency，词频）表示词在文档中出现的频率，IDF（Inverse Document Frequency，逆文档频率）表示词在整个文档集合中的罕见程度。TF-IDF的计算公式如下：

$\text{TF-IDF}(t, d) = \text{TF}(t, d) \times \text{IDF}(t)$

其中：

$\text{TF}(t, d) = \frac{\text{词 } t \text{ 在文档 } d \text{ 中出现的次数}}{\text{文档 } d \text{ 的总词数}}$
$\text{IDF}(t) = \log\left(\frac{\text{文档总数}}{1 + \text{包含词 } t \text{ 的文档数}}\right)$

TF-IDF可以有效地将频繁出现在文档中的词与文档集中的罕见词相结合，从而提高文本表示的区分度。

NLP中的文本表示方法

词袋模型的实现

假设我们有以下文档集合：

documents = [
    "我喜欢吃苹果和香蕉",
    "我喜欢吃香蕉和苹果",
    "他喜欢吃苹果",
    "我不喜欢吃香蕉"
]

我们可以使用词袋模型来表示这些文档。首先，构建词汇表：

from collections import Counter

# 构建词汇表
vocab = Counter()
for doc in documents:
    vocab.update(doc.split())

# 转换为列表
vocab_list = list(vocab.keys())

然后，将每篇文档转换为词袋向量：

# 文档向量化
def bag_of_words(doc, vocab_list):
    vec = [0] * len(vocab_list)
    for word in doc.split():
        if word in vocab_list:
            vec[vocab_list.index(word)] += 1
    return vec

# 应用于文档集合
doc_vectors = [bag_of_words(doc, vocab_list) for doc in documents]

TF-IDF的实现

使用TF-IDF表示文档集合，首先需要计算每个词的TF和IDF值，然后根据公式计算TF-IDF值。

from math import log

# 计算TF值
def compute_tf(doc, vocab_list):
    tf = [0] * len(vocab_list)
    doc_words = doc.split()
    doc_len = len(doc_words)
    for word in doc_words:
        if word in vocab_list:
            tf[vocab_list.index(word)] += 1 / doc_len
    return tf

# 计算IDF值
def compute_idf(documents, vocab_list):
    idf = [0] * len(vocab_list)
    num_docs = len(documents)
    for i, word in enumerate(vocab_list):
        num_docs_with_word = sum([1 for doc in documents if word in doc.split()])
        idf[i] = log(num_docs / (1 + num_docs_with_word))
    return idf

# 计算TF-IDF值
def compute_tfidf(doc, vocab_list, idf):
    tf = compute_tf(doc, vocab_list)
    tfidf = [tf[i] * idf[i] for i in range(len(vocab_list))]
    return tfidf

# 应用于文档集合
idf = compute_idf(documents, vocab_list)
doc_tfidf = [compute_tfidf(doc, vocab_list, idf) for doc in documents]

通过上述代码，我们已经将文档集合转换为TF-IDF表示。这种表示方法可以用于后续的文本分析任务，如文本分类、情感分析和主题建模等。

LSA（潜在语义分析）

LSA是一种基于矩阵分解的文本表示方法，它通过将文档-词矩阵分解为低维矩阵来捕捉文档和词之间的潜在语义关系。LSA的核心是SVD（奇异值分解），它将矩阵分解为三个矩阵的乘积：

$\Sigma V^T$

其中， $A$ 是原始的文档-词矩阵， $U$ 和 $V$ 是正交矩阵， $\Sigma$ 是包含奇异值的对角矩阵。通过保留 $\Sigma$ 中的前 $k$ 个最大奇异值，我们可以得到一个低维的文档-词矩阵，从而实现降维。

import numpy as np
from scipy.sparse.linalg import svds

# 构建文档-词矩阵
doc_word_matrix = np.array(doc_vectors)

# SVD分解
U, S, VT = svds(doc_word_matrix, k=2)

# 低维文档表示
doc_topic_matrix = np.dot(U, np.diag(S))

在上述代码中，我们使用了scipy.sparse.linalg.svds函数来执行SVD分解。k参数表示我们希望保留的奇异值数量，这将决定降维后的矩阵维度。通过将 $U$ 和 $\Sigma$ 相乘，我们得到了降维后的文档表示矩阵。

总结

本教程介绍了自然语言处理中的词袋模型和TF-IDF表示方法，并通过代码示例展示了如何将这些方法应用于文档集合。此外，我们还介绍了LSA（潜在语义分析）作为基于矩阵分解的文本表示方法，它能够捕捉文档和词之间的潜在语义关系，从而实现更有效的文本分析。

请注意，上述代码示例仅为教学目的简化版，实际应用中可能需要处理更多细节，如停用词过滤、词干提取和词形还原等。

自然语言处理之话题建模：LSA理论基础

LSA的原理与应用

Latent Semantic Analysis (LSA) 是一种在自然语言处理中用于话题建模的技术，它基于统计方法来识别文本中隐含的语义结构。LSA 的核心思想是通过矩阵分解技术，将高维的词-文档矩阵转换为低维的潜在语义空间，从而捕捉到词与词、文档与文档之间的潜在关联。

原理

LSA 首先构建一个词-文档矩阵，其中行代表词汇，列代表文档，矩阵中的每个元素表示词在文档中的频率或TF-IDF值。然后，使用奇异值分解（SVD）对这个矩阵进行分解，得到三个矩阵： $U$ 、 $\Sigma$ 和 $V^T$ 。其中， $U$ 和 $V$ 分别表示左奇异向量和右奇异向量， $\Sigma$ 是一个对角矩阵，包含奇异值。通过保留 $\Sigma$ 中的前k个最大的奇异值，可以得到一个k维的潜在语义空间，这个空间可以用于文档的相似度计算、信息检索和话题建模等任务。

应用

LSA 可以用于多种自然语言处理任务，包括但不限于：

信息检索：通过将查询和文档映射到潜在语义空间，可以提高检索的准确性和相关性。
文档聚类：在潜在语义空间中，相似的文档会更接近，可以基于此进行聚类分析。
话题建模：LSA 可以揭示文档集合中的话题结构，帮助理解和分类文档。

矩阵分解在LSA中的作用

矩阵分解，特别是奇异值分解（SVD），在LSA中扮演着关键角色。它能够将原始的词-文档矩阵转换为三个更小的矩阵，从而揭示出数据中的潜在结构。SVD 的应用使得LSA能够：

降维：通过保留前k个最大的奇异值，可以将高维的词-文档矩阵转换为k维的潜在语义空间，减少计算复杂度。
去除噪声：SVD 能够去除矩阵中的噪声，保留主要的语义信息，提高模型的准确性。
语义关联：在潜在语义空间中，语义上相关的词和文档会更接近，这有助于理解和分析文本数据。

示例代码

下面是一个使用Python和scikit-learn库进行LSA的示例代码，包括构建词-文档矩阵、计算TF-IDF值和进行SVD分解。

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import TruncatedSVD
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import Normalizer
from sklearn.datasets import fetch_20newsgroups
from sklearn import metrics
import numpy as np
import pandas as pd

# 加载数据集
newsgroups = fetch_20newsgroups(subset='all', remove=('headers', 'footers', 'quotes'))

# 构建TF-IDF矩阵
tfidf_vectorizer = TfidfVectorizer(max_df=0.95, min_df=2, stop_words='english')
tfidf_matrix = tfidf_vectorizer.fit_transform(newsgroups.data)

# 使用SVD进行降维
lsa = TruncatedSVD(n_components=2, n_iter=100)
lsa_matrix = lsa.fit_transform(tfidf_matrix)

# 正则化
lsa_matrix = Normalizer(copy=False).fit_transform(lsa_matrix)

# 打印前10个文档的LSA向量
print(pd.DataFrame(lsa_matrix[:10], columns=['Topic1', 'Topic2']))

# 计算模型的解释方差比
explained_variance = lsa.explained_variance_ratio_.sum()
print("Explained variance of the SVD step: {}%".format(int(explained_variance * 100)))

代码解释

数据加载：使用fetch_20newsgroups函数从sklearn库中加载20个新闻组数据集。
TF-IDF矩阵构建：通过TfidfVectorizer类构建词-文档矩阵，其中max_df和min_df参数用于过滤掉过于常见或罕见的词。
SVD降维：使用TruncatedSVD类进行SVD分解，将矩阵降维到2维，便于可视化。
正则化：通过Normalizer类对LSA矩阵进行正则化，确保每个文档的向量长度为1。
结果输出：打印前10个文档的LSA向量，并计算模型的解释方差比，以评估降维的效果。

通过以上步骤，我们可以有效地使用LSA进行话题建模和文本分析，捕捉到文本数据中的潜在语义结构。

自然语言处理之话题建模：Latent Semantic Analysis (LSA)

词频-逆文档频率(TF-IDF)计算

TF-IDF的定义与计算

词频-逆文档频率（Term Frequency-Inverse Document Frequency, TF-IDF）是一种在信息检索和文本挖掘中广泛使用的统计方法，用于评估一个词对一个文档集或语料库中的某篇文档的重要程度。TF-IDF是词频（TF）和逆文档频率（IDF）的乘积。

词频（TF）

词频是指一个词在文档中出现的频率，通常表示为：
$\frac{\text{词 } t \text{ 在文档 } d \text{ 中出现的次数}}{\text{文档 } d \text{ 中词的总数}}$

逆文档频率（IDF）

逆文档频率反映了词的普遍重要性，计算公式为：
$\log\left(\frac{\text{语料库中的文档总数}}{1 + \text{包含词 } t \text{ 的文档数}}\right)$

TF-IDF

TF-IDF的计算公式为：
$\times IDF(t)$

示例代码与数据样例

假设我们有以下文档集：

文档1: “自然语言处理是人工智能的一个重要领域”
文档2: “人工智能正在改变我们的生活”
文档3: “自然语言处理和机器学习是紧密相关的”

数据预处理

from sklearn.feature_extraction.text import TfidfVectorizer

# 文档集
documents = [
    "自然语言处理是人工智能的一个重要领域",
    "人工智能正在改变我们的生活",
    "自然语言处理和机器学习是紧密相关的"
]

# 创建TF-IDF向量化器
vectorizer = TfidfVectorizer()

# 计算TF-IDF
tfidf_matrix = vectorizer.fit_transform(documents)

解析TF-IDF矩阵

# 获取特征名称
features = vectorizer.get_feature_names_out()

# 打印TF-IDF矩阵
print(tfidf_matrix.toarray())

# 输出特征名称
print(features)

TF-IDF在LSA中的重要性

在Latent Semantic Analysis（LSA）中，TF-IDF被用来构建文档-词矩阵，这个矩阵反映了文档中词的重要性。LSA通过Singular Value Decomposition（SVD）将高维的文档-词矩阵分解为低维的语义空间，从而捕捉到词与词之间的潜在关联，以及文档与文档之间的相似性。

使用TF-IDF而非简单的词频，可以减少常见词对LSA结果的影响，同时增加稀有词的权重，因为稀有词往往更能代表文档的特定主题。

LSA示例代码

from sklearn.decomposition import TruncatedSVD

# 使用SVD进行LSA
lsa = TruncatedSVD(n_components=2)
lsa_matrix = lsa.fit_transform(tfidf_matrix)

# 打印LSA矩阵
print(lsa_matrix)

通过上述代码，我们能够将文档集转换为一个二维的LSA矩阵，每一行代表一个文档在语义空间中的位置，每一列代表一个潜在的主题。这种表示方式有助于我们理解和分析文档之间的相似性和主题结构。

以上示例展示了如何使用Python的sklearn库进行TF-IDF计算和LSA分析。通过这些步骤，我们可以有效地处理文本数据，提取出文档的主题信息。

自然语言处理之话题建模：LSA与TF-IDF的结合

使用TF-IDF优化LSA

原理

Latent Semantic Analysis (LSA) 是一种用于信息检索和自然语言处理的话题建模技术，它通过将文本转换为向量空间模型，从而捕捉文档之间的潜在语义关系。然而，LSA 使用的词频（Term Frequency, TF）作为权重，可能会导致常见词的权重过高，而忽略了那些能够真正代表文档主题的词。为了解决这个问题，词频-逆文档频率（TF-IDF）被引入到LSA中，以优化词的权重。

TF-IDF 的计算公式如下：

$\times IDF(w)$

其中，

$TF (w, d)$ 是词 $w$ 在文档 $d$ 中的词频，即词 $w$ 出现的次数除以文档 $d$ 中总词数。
$I D F (w)$ 是词 $w$ 的逆文档频率，计算方式为所有文档数量除以包含词 $w$ 的文档数量，再取对数。

示例代码

假设我们有以下文档集合：

“自然语言处理是人工智能的一个重要领域”
“人工智能正在改变我们的生活”
“自然语言处理在医疗领域的应用”

步骤1：导入必要的库

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import TruncatedSVD
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import Normalizer
from sklearn.datasets import fetch_20newsgroups
from sklearn import metrics
from sklearn.cluster import KMeans
import numpy as np

步骤2：创建文档集合

documents = [
    "自然语言处理是人工智能的一个重要领域",
    "人工智能正在改变我们的生活",
    "自然语言处理在医疗领域的应用"
]

步骤3：使用TF-IDF向量化文档

tfidf_vectorizer = TfidfVectorizer(use_idf=True)
tfidf_matrix = tfidf_vectorizer.fit_transform(documents)

步骤4：构建LSA模型

lsa_model = TruncatedSVD(n_components=2)
lsa_matrix = lsa_model.fit_transform(tfidf_matrix)

步骤5：标准化LSA矩阵

normalizer = Normalizer(copy=False)
lsa_matrix = normalizer.fit_transform(lsa_matrix)

解释

在上述代码中，我们首先使用 TfidfVectorizer 将文档转换为TF-IDF矩阵。然后，我们使用 TruncatedSVD 来构建LSA模型，将TF-IDF矩阵降维到2个主题。最后，我们使用 Normalizer 来标准化LSA矩阵，确保每个文档的向量长度为1，这有助于在后续的聚类或分类任务中保持向量的可比性。

LSA模型的构建与话题提取

原理

LSA 模型通过奇异值分解（SVD）将文档-词矩阵转换为一个低维的语义空间。这个低维空间中的每个维度可以被视为一个话题，而文档在这个空间中的位置则反映了它与这些话题的关联程度。

示例代码

步骤1：使用SVD降维

lsa = TruncatedSVD(n_components=2, algorithm='randomized', n_iter=100, random_state=42)
lsa.fit(tfidf_matrix)

步骤2：提取话题

def print_topics(model, vectorizer, top_n=10):
    for idx, topic in enumerate(model.components_):
        print("Topic %d:" % (idx))
        print([(vectorizer.get_feature_names_out()[i], topic[i])
                        for i in topic.argsort()[:-top_n - 1:-1]])
        
print_topics(lsa, tfidf_vectorizer)

解释

在构建LSA模型后，我们定义了一个函数 print_topics 来提取和打印话题。这个函数接收LSA模型、向量化器和要打印的每个话题的词数作为参数。通过遍历模型的组件，我们可以找到每个话题中权重最高的词，从而理解每个话题的含义。

数据样例输出

假设运行上述代码，我们可能得到以下输出：

Topic 0:
[('自然语言处理', 0.70710678), ('人工智能', 0.70710678)]
Topic 1:
[('医疗领域', 1.0), ('应用', 0.0)]

这表明第一个话题可能与“自然语言处理”和“人工智能”相关，而第二个话题可能与“医疗领域”相关。

通过结合TF-IDF和LSA，我们可以更有效地从文本数据中提取话题，这对于文本分析、信息检索和机器学习任务具有重要意义。

LSA的实际应用

LSA在信息检索中的应用

原理

Latent Semantic Analysis (LSA) 在信息检索领域中，主要用于提高文档和查询之间的相关性评估。LSA 通过将文档和查询转换到一个低维的语义空间中，从而捕捉到它们之间的潜在语义关系。这一转换基于文档集合的词频-逆文档频率 (TF-IDF) 矩阵，通过奇异值分解 (SVD) 来实现。

内容

在信息检索中，LSA 可以帮助解决词汇匹配问题，即查询词和文档中词的不完全匹配。通过 LSA，即使查询词和文档词不完全相同，但语义上相关，也能被识别为相关。

示例代码

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import TruncatedSVD
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import Normalizer
from sklearn.datasets import fetch_20newsgroups
from sklearn.metrics.pairwise import cosine_similarity

# 加载数据集
newsgroups = fetch_20newsgroups(subset='all', remove=('headers', 'footers', 'quotes'))

# 创建 TF-IDF 矩阵
tfidf_vectorizer = TfidfVectorizer(max_df=0.95, min_df=2, stop_words='english')
tfidf_matrix = tfidf_vectorizer.fit_transform(newsgroups.data)

# 应用 SVD
lsa = TruncatedSVD(n_components=100)
lsa_matrix = lsa.fit_transform(tfidf_matrix)

# 正则化
lsa_matrix = Normalizer(copy=False).fit_transform(lsa_matrix)

# 查询向量
query = "information retrieval"
query_tfidf = tfidf_vectorizer.transform([query])
query_lsa = lsa.transform(query_tfidf)

# 计算相似度
similarities = cosine_similarity(query_lsa, lsa_matrix)

# 找到最相关的文档
top_docs = similarities.argsort()[0][-10:][::-1]
for doc in top_docs:
    print(newsgroups.data[doc][:100])

解释

上述代码首先加载了 20newsgroups 数据集，然后使用 TfidfVectorizer 创建 TF-IDF 矩阵。接着，通过 TruncatedSVD 进行降维，得到 LSA 矩阵。查询词通过相同的 TF-IDF 转换后，再通过 LSA 转换到低维空间。最后，使用余弦相似度计算查询词与所有文档的相似度，找出最相关的文档。

LSA在文本分类中的应用

原理

在文本分类中，LSA 可以用于特征提取，将文本转换为低维的语义特征向量，从而提高分类器的性能。LSA 能够去除文本中的噪声，减少维度，同时保留文本的语义信息。

内容

LSA 通过降维，可以减少分类任务中的特征数量，避免过拟合，同时提高分类的准确性。在训练分类器时，使用 LSA 转换后的特征向量作为输入，可以捕捉到文本的潜在语义结构。

示例代码

from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import TruncatedSVD
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import Normalizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report

# 加载数据集
newsgroups = fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes'))

# 创建 TF-IDF 矩阵
tfidf_vectorizer = TfidfVectorizer(max_df=0.95, min_df=2, stop_words='english')
tfidf_matrix = tfidf_vectorizer.fit_transform(newsgroups.data)

# LSA 管道
lsa = make_pipeline(TruncatedSVD(n_components=100), Normalizer(copy=False))

# 转换 TF-IDF 矩阵
lsa_matrix = lsa.fit_transform(tfidf_matrix)

# 训练分类器
clf = MultinomialNB().fit(lsa_matrix, newsgroups.target)

# 测试数据集
newsgroups_test = fetch_20newsgroups(subset='test', remove=('headers', 'footers', 'quotes'))
test_tfidf_matrix = tfidf_vectorizer.transform(newsgroups_test.data)
test_lsa_matrix = lsa.transform(test_tfidf_matrix)

# 预测
predicted = clf.predict(test_lsa_matrix)

# 输出分类报告
print(classification_report(newsgroups_test.target, predicted, target_names=newsgroups_test.target_names))

解释

这段代码展示了如何使用 LSA 进行文本分类。首先，加载了 20newsgroups 数据集的训练集，然后创建 TF-IDF 矩阵。接着，使用 LSA 管道进行降维和正则化。训练一个朴素贝叶斯分类器，并在测试集上进行预测。最后，输出分类报告，评估分类器的性能。

通过以上两个示例，我们可以看到 LSA 在信息检索和文本分类中的实际应用，以及如何通过 Python 的 scikit-learn 库来实现这些应用。

自然语言处理之话题建模：Latent Semantic Analysis (LSA) 实践

案例分析与实践

基于LSA的文档相似度计算

原理

Latent Semantic Analysis (LSA) 是一种基于统计的方法，用于分析文本集合中的语义结构。LSA 通过构建文档-词矩阵，并应用奇异值分解 (SVD) 来降低维度，从而揭示文档和词之间的潜在关联。在 LSA 中，文档和词可以表示为向量，这些向量在多维空间中表示语义关系。计算文档相似度时，我们可以通过比较它们在 LSA 空间中的向量来实现。

内容

在 LSA 中，文档相似度通常通过计算两个文档向量的余弦相似度来衡量。余弦相似度是两个向量的点积除以它们的模长的乘积，范围在 -1 到 1 之间，值越接近 1 表示相似度越高。

示例代码

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import TruncatedSVD
from sklearn.metrics.pairwise import cosine_similarity

# 文档集合
documents = [
    "我喜欢在晴朗的日子里去公园散步。",
    "晴朗的天气适合户外活动。",
    "公园里的花在春天开放。",
    "春天是户外活动的好季节。",
    "散步可以让人放松心情。"
]

# 构建文档-词矩阵
vectorizer = CountVectorizer()
doc_term_matrix = vectorizer.fit_transform(documents)

# 应用 SVD 降低维度
lsa_model = TruncatedSVD(n_components=2)
lsa_matrix = lsa_model.fit_transform(doc_term_matrix)

# 计算文档相似度
similarity_matrix = cosine_similarity(lsa_matrix)

# 打印相似度矩阵
print(similarity_matrix)

解释

上述代码首先定义了一个文档集合，然后使用 CountVectorizer 构建文档-词矩阵。接着，通过 TruncatedSVD 对矩阵进行降维，得到 LSA 矩阵。最后，使用 cosine_similarity 函数计算文档之间的相似度。

使用LSA进行话题建模的实战

原理

话题建模是一种统计建模技术，用于发现文档集合中隐藏的话题结构。LSA 通过将文档表示为词的加权向量，可以识别出文档中的话题。在 LSA 中，每个话题可以被视为一个词的组合，而每个文档可以表示为这些话题的组合。

内容

LSA 通过 SVD 将文档-词矩阵分解为三个矩阵：文档-主题矩阵、主题-词矩阵和奇异值矩阵。主题-词矩阵中的每一行代表一个话题，列出了构成该话题的词及其权重。文档-主题矩阵中的每一行代表一个文档，列出了该文档中各个话题的权重。

示例代码

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import TruncatedSVD

# 文档集合
documents = [
    "我喜欢在晴朗的日子里去公园散步。",
    "晴朗的天气适合户外活动。",
    "公园里的花在春天开放。",
    "春天是户外活动的好季节。",
    "散步可以让人放松心情。"
]

# 构建 TF-IDF 矩阵
vectorizer = TfidfVectorizer()
doc_term_matrix = vectorizer.fit_transform(documents)

# 应用 SVD 降低维度
lsa_model = TruncatedSVD(n_components=2)
lsa_matrix = lsa_model.fit_transform(doc_term_matrix)

# 获取主题-词矩阵
components = lsa_model.components_
terms = vectorizer.get_feature_names_out()

# 打印主题和词
for i, comp in enumerate(components):
    terms_comp = zip(terms, comp)
    sorted_terms = sorted(terms_comp, key=lambda x: x[1], reverse=True)[:5]
    print("主题 %d: %s" % (i, ' '.join(t[0] for t in sorted_terms)))