自然语言处理系列四十三》新词发现与短语提取》短语提取》算法原理

注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】

自然语言处理系列四十三

短语提取》算法原理

短语提取是指从文章中提取典型的、有代表性的短语,期望能够表达文章的关键内容。短语抽取对于文章理解、搜索、分类、聚类都很重要。而高质量的短语抽取算法,还能有效助力构建知识图谱。常见的短语提取方法分为无监督 (unsupervised)和有监督 (supervised)。整体抽取流程则分为2个步骤:(1) candidate generation,得到候选短语集合;(2) keyphrase scoring,对候选短语进行打分。

  1. 无监督方法
    无监督的方法由于其不需要数据标注及普适性,得到了大范围的应用。
    1)基于统计的方法
    基于TFIDF的方法是最基本的版本,在得到候选短语集合的基础上(如,利用POS tags抽取noun phrases (NP)),使用term frequency, inverse document frequency对候选短语进行打分,选择高分短语作为关键短语。YAKE除了利用term frequency, term position,还利用了更多基于统计学的特征,希望能更好地表示短语的上下文信息和短语在文章中发挥的作用。
    2)基于图网络的方法
    TextRank是第一个基于图网络的关键短语抽取算法。该方法首先根据POS tags抽取候选短语,然后使用候选短语作为节点,创建图网络。两个候选短语如果共现于一定的窗口内,则在节点之间创建一条边,建立节点间的关联。使用PageRank算法更新该图网络,直至达到收敛条件。此后,各种基于图网络的改进算法不断被提出,该类算法也逐渐成为无监督关键短语抽取中应用最广泛的算法。SingleRank在TextRank之上为节点间的边引入了权重。PositionRank通过引入短语的位置信息,创建一个biased weighted PageRank,从而提供了更准确的关键短语抽取能力。
    3)基于embedding的方法
    这类方法利用embedding来表达文章和短语在各个层次的信息(如:字、语法、语义等)。EmbedRank首先利用POS tags抽取候选短语,然后计算候选短语embedding和文章embedding的cosine similarity,利用相似度将候选短语排序,得到关键的短语。
  2. 有监督方法
    虽然需要花费很多精力进行数据标注,但有监督方法在各个特定任务和数据集上,通常能够取得更好的效果。
    1)传统的方法
    KEA是较早期的算法,利用特征向量表示候选短语,如:tf-idf分数和初次出现在文章中的位置信息,使用Naïve Bayes作为分类,对候选短语进行打分和分类。CeKE在对学术论文进行关键短语抽取时,通过使用论文的引用关系,引入更多特征信息,从而进一步提升了效果。RankingSVM使用learning to rank来建模该问题,将训练过程抽象为拟合ranking函数。TopicCoRank是无监督方法TopicRank的有监督扩展。该方法在basic topic graph之外,结合了第二个图网络。
    CRF是序列标注的经典算法,利用语言学、文章结果等各种来源特征表示文章,通过序列标注,得到文章的关键短语。
    2)基于深度学习的方法
    RNN使用了双层RNN结构,通过两层hidden layer来表征信息,并且利用序列标注的 方法,输出最终的结果。CopyRNN使用encoder-decoder结构进行关键短语抽取。首先,训练数据被转换为text-keyphrase pairs,然后训练基于RNN的encoder-decoder网络,学习从源数据 (sentence)到目标数据 (keyphrase)的映射关系。CorrRNN同样适用encoder-decoder结构,但是额外引入了两种限制条件:
    (1)Keyphrases应该尽量覆盖文章的多个不同话题;
    (2) Keyphrases应该彼此之间尽量不一样,保证多样性。
    短语提取是NLP的一个基础任务,对于内容理解、搜索、推荐等各种下游任务,都非常重要。统计学、语法、句法、语义等多来源特征被引入和使用,用来抽取候选短语和对短语进行打分。随着预训练模型的发展,各种知识图谱的构建,更多外部知识和信息能够被引入,从而促进短语提取算法的效果提升。同时,更好的短语提取系统又能反哺各项任务,比如:知识图谱的构建,最终整体形成闭环,促进各项技术的进步。

短语提取》代码实战

下一篇文章详细讲解短语提取》代码实战,敬请关注。

总结

此文章有对应的配套新书教材和视频:

【配套新书教材】
《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】
新书特色:本书从自然语言处理基础开始,逐步深入各种NLP热点前沿技术,使用了Java和Python两门语言精心编排了大量代码实例,契合公司实际工作场景技能,侧重实战。
全书共分为19章,详细讲解中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注、文本相似度算法、语义相似度计算、词频-逆文档频率(TF-IDF)、条件随机场、新词发现与短语提取、搜索引擎Solr Cloud和Elasticsearch、Word2vec词向量模型、文本分类、文本聚类、关键词提取和文本摘要、自然语言模型(Language Model)、分布式深度学习实战等内容,同时配套完整实战项目,例如对话机器人实战、搜索引擎项目实战、推荐算法系统实战。
本书理论联系实践,深入浅出,知识点全面,通过阅读本书,读者不仅可以理解自然语言处理的知识,还能通过实战项目案例更好地将理论融入实际工作中。

【配套视频】
自然语言处理NLP原理与实战 视频教程【陈敬雷】
视频特色:《自然语言处理NLP原理与实战》包含了互联网公司前沿的热门算法的核心原理,以及源码级别的应用操作实战,直接讲解自然语言处理的核心精髓部分,自然语言处理从业者或者转行自然语言处理者必听视频!

上一篇:自然语言处理系列四十二》新词发现与短语提取》新词发现》代码实战
下一篇:自然语言处理系列四十四》新词发现与短语提取》短语提取》代码实战

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

陈敬雷-充电了么-CEO兼CTO

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值