对文本数据进行关键词提取，可以采用哪些算法？具体实现流程是什么样的？

北纬40度~

于 2024-03-13 20:03:34 发布

阅读量4.1k

点赞数 12

分类专栏：笔记文章标签：算法

本文链接：https://blog.csdn.net/weixin_46160781/article/details/136689851

版权

笔记专栏收录该内容

13 篇文章

订阅专栏

The question 1: 对文本数据进行关键词提取，可以采用哪些算法？具体实现流程是什么样的？

一、常见的关键词提取算法：

TF-IDF（Term Frequency-Inverse Document Frequency）:

TF-IDF是一种统计方法，用以评估一个词语对于一个文件集或一个语料库中的其中一份文件的重要程度。它是通过比较词频（TF）和逆文档频率（IDF）来实现的，帮助识别出只在少数文档中频繁出现的词，认为这些词对文档具有好的区分度。

TextRank:

TextRank是一种基于图的排序算法，用于文本处理，特别是在关键词提取和文摘生成中。它是通过建立文本中单词的图模型，然后用PageRank算法来识别图中的重要节点（单词），从而提取出关键词。

LDA（Latent Dirichlet Allocation）:

LDA是一种主题模型算法，可以用于识别大规模文本数据中的主题。通过将文档集合中的每篇文档视为一个主题分布，并将每个主题视为一个关键词分布，LDA能够发现文档集合中的隐藏主题，并据此提取关键词。

Word2Vec:

Word2Vec是一种利用神经网络将词汇表达为向量的方法。通过这种方式，可以计算单词之间的相似度。虽然Word2Vec本身不直接用于关键词提取，但它可以辅助识别语义上相关的词汇，进而辅助关键词提取。

基于深度学习的方法:

随着深度学习技术的发展，一些基于深度学习的模型如CNN（卷积神经网络）、RNN（循环神经网络）、BERT（Bidirectional Encoder Representations from Transformers）等被用于文本数据的特征提取，并进一步用于关键词提取。这些模型能够学习文本的深层语义信息，从而提高关键词提取的准确性和效果。

二、对上述算法在适用性、准确性、计算复杂度和对上下文的理解能力进行优缺点分析

算法	优点	缺点
TF-IDF	- 简单易于理解和实现 - 计算效率高，适用于大规模文档集合 - 能有效识别文档特定的关键词	- 忽略了词语的语序和上下文信息 - 对于新词或专有名词的识别能力较弱
TextRank	- 不需要预先训练模型，简单易用 - 能够基于词语的共现关系理解词语之间的相互作用	- 对于处理长文本效率较低 - 依赖于词语的共现关系，可能不适用于语义复杂或结构紧凑的文本
LDA	- 能够发现文本数据的潜在主题 - 适用于处理大规模文档集合	- 模型训练时间较长，需要调整的超参数较多 - 对短文本的处理效果不佳
Word2Vec	- 能够捕获词语的语义信息 - 生成的词向量可以用于多种NLP任务	- 直接用于关键词提取时需要额外的处理步骤 - 需要大量文本数据进行训练
基于深度学习的方法	- 能够捕捉到文本的深层次语义信息 - 适用于复杂的文本处理任务	- 需要大量的训练数据 - 模型训练和推理计算资源消耗大 - 需要专业知识进行模型调优

三、算法原理

1 TF-IDF

算法的核心思想是：如果某个词语在一篇文章中出现的频率高（TF高），并且在其他文章中很少出现（IDF高），则认为这个词语具有很好的类别区分能力，对文档的重要性高。

TF (Term Frequency)

词频（TF）指的是某个词在文档中出现的频率。这个数字通常会被规范化（分母可能是文档中词的总数），以避免它偏向长的文件。（即，某个词在文档中出现的次数除以文档中词的总数）

$ \text{TF}(t, d) = \frac{\text{在文档 }d \text{ 中词语 }t\text{ 出现的次数}}{\text{文档 }d\text{ 中的词语总数}} $

IDF (Inverse Document Frequency)

逆文档频率（IDF）是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文档数目除以包含该词语之文档的数目，然后将得到的商取对数得到。

$\text{IDF}(t, D) = \log \frac{\text{文档总数}}{\text{包含词语 }t\text{ 的文档数目} + 1}$

这里加1是为了避免分母为0（即，避免出现没有包含词语 $t$ 的情况）。

TF-IDF

因此，TF-IDF实际上是两者的乘积：

$\text{TF-IDF}(t, d, D) = \text{TF}(t, d) \times \text{IDF}(t, D)$

这里：

$t$ 代表一个词语
$d$ 代表一篇文档
$D$ 代表文档集合

TF-IDF值越高，表示词语在文档中的重要性越高。这个值越大，表示词语对文档的贡献越大，也就是说，这个词在文档中越重要。

代码实现：

from sklearn.feature_extraction.text import TfidfVectorizer
import jieba


text_cn = """
人工智能（AI）和机器学习（ML）是21世纪最重要的技术进步之一。它们不仅推动了从自动驾驶汽车到个性化医疗的广泛应用，
还有望彻底改变我们与环境的互动方式。AI指的是计算机系统执行通常需要人类智能的任务，例如视觉感知、语音识别、决策制定和语言翻译。
ML是AI的一个子集，它专注于开发能够从数据中学习并基于数据做出预测或决策的算法。将AI和ML整合到云计算中，正在转变科技行业，
使服务更加精细化和个性化，同时确保数据安全和效率。本文旨在探索AI和ML在云计算中的作用，突出它们对各个领域的影响，并讨论这些技术的未来前景。
"""

# 对中文文本进行分词
text_cn_cut = " ".join(jieba.cut(text_cn))

# 初始化TF-IDF Vectorizer，设置中文停用词
vectorizer_cn = TfidfVectorizer(max_features=10, stop_words=['的', '是', '在', '和', '了', '有'])  # 提取最重要的10个词

# 计算TF-IDF
tfidf_matrix_cn = vectorizer_cn.fit_transform([text_cn_cut])

# 获取词汇和对应的TF-IDF分数
feature_names_cn = vectorizer_cn.get_feature_names_out()
scores_cn = tfidf_matrix_cn.toarray().flatten()

# 组合词汇和其TF-IDF分数
keywords_with_scores_cn = dict(zip(feature_names_cn, scores_cn))

# 打印结果
print(keywords_with_scores_cn)

from sklearn.feature_extraction.text import TfidfVectorizer

# 示例长文章
text = """
Artificial intelligence (AI) and machine learning (ML) are two of the most significant technological advances of the 21st century. 
Not only do they power a wide range of applications, from autonomous vehicles to personalized healthcare, but they also promise 
to revolutionize how we interact with our environment. AI refers to the development of computer systems that can perform tasks 
normally requiring human intelligence, such as visual perception, speech recognition, decision-making, and language translation. 
ML is a subset of AI that focuses on the development of algorithms that can learn from and make predictions or decisions based on data. 
The integration of AI and ML into cloud computing is transforming the tech industry, enabling more sophisticated and personalized 
services while ensuring data security and efficiency. This article aims to explore the role of AI and ML in cloud computing, 
highlighting their impact on various sectors and discussing the future prospects of these technologies.
"""

# 初始化TF-IDF Vectorizer
vectorizer = TfidfVectorizer(stop_words='english', max_features=10)  # 提取最重要的10个词

# 计算TF-IDF
tfidf_matrix = vectorizer.fit_transform([text])

# 获取词汇和对应的TF-IDF分数
feature_names = vectorizer.get_feature_names_out()
scores = tfidf_matrix.toarray().flatten()

# 组合词汇和其TF-IDF分数
keywords_with_scores = dict(zip(feature_names, scores))

# 输出结果
keywords_with_scores

2 TextRank

TextRank算法是一种基于图的排序算法，用于文本处理任务，如关键词提取和文本摘要生成。它是由PageRank算法启发而来的，PageRank算法最初是由谷歌的创始人拉里·佩奇（Larry Page）和谢尔盖·布林（Sergey Brin）提出，用于衡量网页的重要性。TextRank利用这一概念，通过建立文本单元（如句子或单词）之间的关系图来识别文本中的关键元素。

TextRank算法的数学表示

TextRank算法的核心是一个基于图的评分或排序机制，它将文本中的元素（如单词或句子）作为图中的节点，而元素之间的相互关系（如共现或相似性）作为边。然后，它使用以下公式迭代计算每个节点的得分：

$WS(V_i) = (1 - d) + d \times \sum_{V_j \in In(V_i)} \frac{w_{ji}}{\sum_{V_k \in Out(V_j)} w_{jk}} WS(V_j)$

这里：

$WS(V_i)$ 是节点 $V_i$ 的得分。
$d$ 是阻尼系数，通常设为0.85，这是一个经验值，用以模拟浏览者继续点击的概率。
$In(V_i)$ 是指向节点 $V_i$ 的节点集合，即有边指向 $V_i$ 的所有节点。
$Out(V_j)$ 是节点 $V_j$ 指向的节点集合，即 $V_j$ 有边指向的所有节点。
$w_{ji}$ 是从节点 $V_j$ 到 $V_i$ 的边的权重。
$\sum_{V_j \in In(V_i)}$ 表示对所有指向 $V_i$ 的节点 $V_j$ 的得分进行求和。
$\frac{w_{ji}}{\sum_{V_k \in Out(V_j)} w_{jk}}$ 表示节点 $V_j$ 对 $V_i$ 得分贡献的比例，其中 $w_{jk}$ 是节点 $V_j$ 到它指向的每个节点 $V_k$ 的边的权重。

通过迭代计算，每个节点的得分最终会收敛到一个稳定的值，这个值反映了节点在文本中的重要性。在关键词提取的应用中，节点代表单词，边代表单词之间的共现关系；在文本摘要的应用中，节点代表句子，边代表句子之间的相似性。

TextRank算法的优势在于它不需要预先的训练数据，是一种无监督的方法，可以直接应用于任何给定的文本。

from summa import keywords

text = """
Artificial intelligence (AI) and machine learning (ML) are two of the most significant technological advances of the 21st century.
Not only do they power a wide range of applications, from autonomous vehicles to personalized healthcare, but they also promise
to revolutionize how we interact with our environment. AI refers to the development of computer systems that can perform tasks
normally requiring human intelligence, such as visual perception, speech recognition, decision-making, and language translation.
ML is a subset of AI that focuses on the development of algorithms that can learn from and make predictions or decisions based on data.
The integration of AI and ML into cloud computing is transforming the tech industry, enabling more sophisticated and personalized
services while ensuring data security and efficiency. This article aims to explore the role of AI and ML in cloud computing,
highlighting their impact on various sectors and discussing the future prospects of these technologies.
"""

# 使用TextRank算法提取关键词
extracted_keywords = keywords.keywords(text, scores=True)

# 输出提取的关键词及其分数
print(extracted_keywords)

from summa.summarizer import summarize

text = """
Artificial intelligence (AI) and machine learning (ML) are two of the most significant technological advances of the 21st century. 
Not only do they power a wide range of applications, from autonomous vehicles to personalized healthcare, but they also promise 
to revolutionize how we interact with our environment. AI refers to the development of computer systems that can perform tasks 
normally requiring human intelligence, such as visual perception, speech recognition, decision-making, and language translation. 
ML is a subset of AI that focuses on the development of algorithms that can learn from and make predictions or decisions based on data. 
The integration of AI and ML into cloud computing is transforming the tech industry, enabling more sophisticated and personalized 
services while ensuring data security and efficiency. This article aims to explore the role of AI and ML in cloud computing, 
highlighting their impact on various sectors and discussing the future prospects of these technologies.
"""

# 使用TextRank算法生成摘要，通过调整ratio参数可以控制摘要的长度
generated_summary = summarize(text, ratio=0.2)

print(generated_summary)

3 LDA

LDA（Latent Dirichlet Allocation）是一种主题模型，它允许观察到的文本集合中的每一篇文档被解释为关于一组未观察到的潜在主题的随机混合。简而言之，LDA提供了一种用于从文档集合中自动发现主题的方式。LDA背后的基本思想是，文档是由一组特定的主题混合生成的，而每个主题则是由一组特定的词汇混合生成的。

LDA算法的原理：

假设：
- 每篇文档是由多个主题的混合生成的。
- 每个主题是由多个词汇的分布生成的。
过程：
- 对于文档集中的每一篇文档，LDA模型都会尝试反向推理出一个潜在的主题混合，这个混合定义了文档中每个词的可能来源。
- LDA通过重复抽样过程（通常是吉布斯抽样或变分贝叶斯推断）来估计这些未知的参数，即文档-主题和主题-词汇的分布。

数学表示：

假设我们有 $D$ 篇文档，每篇文档由一系列词汇组成，我们的目标是发现 $K$ 个主题。LDA模型的生成过程如下：

对于每个主题 $k$ 中的每个词 $w$ ，选择一个词 $w$ 的概率分布 $\phi_k$ 。这是从Dirichlet分布中抽取的，参数为 $\beta$ 。
对于每篇文档 $d$ ：
- 选择一个主题分布 $\theta_d$ 。这是从Dirichlet分布中抽取的，参数为 $\alpha$ 。
- 对于文档中的每个词 $n$ ：
  - 首先，从文档的主题分布 $\theta_d$ 中选择一个主题 $z_{d,n}$ 。
  - 然后，从选择的主题 $z_{d,n}$ 对应的词分布 $\phi_{z_{d,n}}$ 中选择一个词 $w_{d,n}$ 。

参数：

$\alpha$ ：文档-主题分布的Dirichlet先验参数。
$\beta$ ：主题-词汇分布的Dirichlet先验参数。
$\theta_d$ ：第 $d$ 篇文档的主题分布。
$\phi_k$ ：第 $k$ 个主题的词汇分布。
$z_{d,n}$ ：第 $d$ 篇文档中第 $n$ 个词的主题。
$w_{d,n}$ ：第 $d$ 篇文档中第 $n$ 个词。

目标：

LDA的目标是推断两个潜在的分布：文档-主题分布 $\theta$ 和主题-词汇分布 $\phi$ 。通过这些分布，我们可以不仅了解文档包含哪些主题，还能了解每个主题包含哪些词汇，进而揭示文档集的潜在结构。

4 Word2Vec

Word2Vec是一种广泛使用的词嵌入（Word Embedding）技术，由Google的研究团队在2013年提出。它的核心思想是通过学习词语之间的上下文关系来将每个词转换为一个固定大小的稠密向量（通常称为嵌入向量），使得这些向量能够捕捉到词语之间的语义和语法关系。Word2Vec的成功部分在于它能够使语义上或语法上相似的词语在向量空间中彼此接近。

Word2Vec模型有两种主要的架构：连续词袋模型（CBOW）和跳字模型（Skip-gram）。