自然语言处理系列四十三》新词发现与短语提取》短语提取》算法原理

陈敬雷-充电了么-CEO兼CTO

已于 2024-08-25 21:20:28 修改

阅读量833

点赞数 13

文章标签：自然语言处理人工智能 ai AI编程 python chatgpt gpt

于 2024-08-24 22:35:45 首次发布

本文链接：https://blog.csdn.net/weixin_52610848/article/details/141506471

版权

注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】

自然语言处理系列四十三

短语提取》算法原理

短语提取是指从文章中提取典型的、有代表性的短语，期望能够表达文章的关键内容。短语抽取对于文章理解、搜索、分类、聚类都很重要。而高质量的短语抽取算法，还能有效助力构建知识图谱。常见的短语提取方法分为无监督（unsupervised）和有监督（supervised）。整体抽取流程则分为2个步骤：(1) candidate generation，得到候选短语集合；(2) keyphrase scoring，对候选短语进行打分。

无监督方法
无监督的方法由于其不需要数据标注及普适性，得到了大范围的应用。
1）基于统计的方法
基于TFIDF的方法是最基本的版本，在得到候选短语集合的基础上（如，利用POS tags抽取noun phrases (NP)），使用term frequency, inverse document frequency对候选短语进行打分，选择高分短语作为关键短语。YAKE除了利用term frequency, term position，还利用了更多基于统计学的特征，希望能更好地表示短语的上下文信息和短语在文章中发挥的作用。
2）基于图网络的方法
TextRank是第一个基于图网络的关键短语抽取算法。该方法首先根据POS tags抽取候选短语，然后使用候选短语作为节点，创建图网络。两个候选短语如果共现于一定的窗口内，则在节点之间创建一条边，建立节点间的关联。使用PageRank算法更新该图网络，直至达到收敛条件。此后，各种基于图网络的改进算法不断被提出，该类算法也逐渐成为无监督关键短语抽取中应用最广泛的算法。SingleRank在TextRank之上为节点间的边引入了权重。PositionRank通过引入短语的位置信息，创建一个biased weighted PageRank，从而提供了更准确的关键短语抽取能力。
3）基于embedding的方法
这类方法利用embedding来表达文章和短语在各个层次的信息（如：字、语法、语义等）。EmbedRank首先利用POS tags抽取候选短语，然后计算候选短语embedding和文章embedding的cosine similarity，利用相似度将候选短语排序，得到关键的短语。
有监督方法
虽然需要花费很多精力进行数据标注，但有监督方法在各个特定任务和数据集上，通常能够取得更好的效果。
1）传统的方法
KEA是较早期的算法，利用特征向量表示候选短语，如：tf-idf分数和初次出现在文章中的位置信息，使用Naïve Bayes作为分类，对候选短语进行打分和分类。CeKE在对学术论文进行关键短语抽取时，通过使用论文的引用关系，引入更多特征信息，从而进一步提升了效果。RankingSVM使用learning to rank来建模该问题，将训练过程抽象为拟合ranking函数。TopicCoRank是无监督方法TopicRank的有监督扩展。该方法在basic topic graph之外，结合了第二个图网络。
CRF是序列标注的经典算法，利用语言学、文章结果等各种来源特征表示文章，通过序列标注，得到文章的关键短语。
2）基于深度学习的方法
RNN使用了双层RNN结构，通过两层hidden layer来表征信息，并且利用序列标注的方法，输出最终的结果。CopyRNN使用encoder-decoder结构进行关键短语抽取。首先，训练数据被转换为text-keyphrase pairs，然后训练基于RNN的encoder-decoder网络，学习从源数据 (sentence)到目标数据 (keyphrase)的映射关系。CorrRNN同样适用encoder-decoder结构，但是额外引入了两种限制条件：
（1）Keyphrases应该尽量覆盖文章的多个不同话题；
（2） Keyphrases应该彼此之间尽量不一样，保证多样性。
短语提取是NLP的一个基础任务，对于内容理解、搜索、推荐等各种下游任务，都非常重要。统计学、语法、句法、语义等多来源特征被引入和使用，用来抽取候选短语和对短语进行打分。随着预训练模型的发展，各种知识图谱的构建，更多外部知识和信息能够被引入，从而促进短语提取算法的效果提升。同时，更好的短语提取系统又能反哺各项任务，比如：知识图谱的构建，最终整体形成闭环，促进各项技术的进步。

短语提取》代码实战

下一篇文章详细讲解短语提取》代码实战，敬请关注。

总结

此文章有对应的配套新书教材和视频：

【配套新书教材】
《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】
新书特色：本书从自然语言处理基础开始，逐步深入各种NLP热点前沿技术，使用了Java和Python两门语言精心编排了大量代码实例，契合公司实际工作场景技能，侧重实战。
全书共分为19章，详细讲解中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注、文本相似度算法、语义相似度计算、词频-逆文档频率(TF-IDF)、条件随机场、新词发现与短语提取、搜索引擎Solr Cloud和Elasticsearch、Word2vec词向量模型、文本分类、文本聚类、关键词提取和文本摘要、自然语言模型（Language Model）、分布式深度学习实战等内容，同时配套完整实战项目，例如对话机器人实战、搜索引擎项目实战、推荐算法系统实战。
本书理论联系实践，深入浅出，知识点全面，通过阅读本书，读者不仅可以理解自然语言处理的知识，还能通过实战项目案例更好地将理论融入实际工作中。

【配套视频】
自然语言处理NLP原理与实战视频教程【陈敬雷】
视频特色：《自然语言处理NLP原理与实战》包含了互联网公司前沿的热门算法的核心原理，以及源码级别的应用操作实战，直接讲解自然语言处理的核心精髓部分，自然语言处理从业者或者转行自然语言处理者必听视频！

上一篇：自然语言处理系列四十二》新词发现与短语提取》新词发现》代码实战
下一篇：自然语言处理系列四十四》新词发现与短语提取》短语提取》代码实战