论文浅尝|《Automatic Keyphrase Extraction : An Overview Of The State Of The Art》

导读

这是2016年的IEEE文章,题目为《Automatic Keyphrase Extraction : An Overview Of The State Of The Art》,主要对于“自动关键词提取”这一话题的最新进展进行了综述,介绍各自动抽取方法的发展以及优缺点,并讨论了造成各方法性能不同的原因,提出未来的改进方向。

研究背景

  1. 自动提取关键词这个任务在信息检索、自然语言处理等领域都有很广泛的应用;
  2. 已有的关键词提取AKPE(automatic keyphrase extraction) 方法,即使是目前最新的方法,表现都不尽如人意。

自动关键词提取过程

一般提取过程分为四个步骤:1)预处理;2)候选集生成;3)候选集排序;4)评估抽取准确率。
在这里插入图片描述

文档预处理和候选集生成

1. 预处理:分词、句子主干提取、词性标注、停用等。
2. 候选集生成:用启发式规则生成总数尽可能小的候选集。

2.1 基于n-gram的方法
1)根据短语边界进行分割(标点、数字等);
2)bigram、trigram等切分候选短语;
3)采用规则剔除一部分候选短语(如停用词不能在词首)。

2.2 基于词性标记的方法
使带有词性标记的词语成为候选短语

3. 关键词提取方法

3.1 有监督的方法

3.1.1 将关键词提取看作一个二分类问题
使用不同的机器学习方法,如朴素贝叶斯、支持向量机、最大熵等,产生了不同的模型。不同模型的差异主要是在特征选择机器学习方法的使用两个方面。

- KEA:

  1. 特征:t(TF-IDF值)、d(距离);
  2. 方法:朴素贝叶斯。
    在这里插入图片描述

- GenEx
类似于决策树,使用了更多属性(不包括TF-IDF)

- HUMB

  1. 特征:结构特征(位置等),内容特征(措辞、信息性、关键词)以及词汇/语义特征(维基百科关键词等);
  2. 模型:决策树(C4.5)、多层感知器(MLP)和支持向量机(SVM)–>袋状决策树

- DPM-index

  1. DPM-index【document phrase maximality index (文件短语最大值指数)】:鉴别重叠的候选短语;
  2. 特征:18个统计特征,包括DPM-index在内的3个新特征;

- CeKE

  1. 除了文档文本内容和文本相似的邻居之外,还存在其他信息邻居;
  2. 特征(关键短语特征):候选短语在训练集中作为标记或关键短语出现的频率。

3.1.2 特征工程

- 提取特征的方法:
1)频率统计【在单个文档或整个集合上】
2)关键词短语语义相似性【手动指定集合中关键短语的流行度】
3)启发式方法【短语位置、长度】
4)词汇和形态分析

- 特征分类
1)短语级特征;2)文档级特征;3)语料库级特征;4)基于外部知识的特征。
在这里插入图片描述
3.2 无监督的方法
将关键词提取看作一个排序问题-基于统计和基于图的方法
1)将文本表示为矩阵,基于tf-idf术语权重对关键词进行排序;
2)结合语言学和统计信息,从数字图书馆的文档中提取技术术语;
3)文本图形表示:从输入文档构建图形,每个文档都表示为一个图,其中顶点或节点表示单词,边根据词汇或语义关系(如共现关系)连接。然后使用图中心性度量对节点或顶点进行排序(如PageRank等),为节点词分配权重,以反映其在文本中的语义重要性。
4)主题聚类、语言建模等。

- TextRank
将文档表示为图形【无向图】:图中的每个顶点对应一个单词,同时出现的任何两个单词之间都有一条边。
在这里插入图片描述
- KP-Miner
使用n-gram和tf-idf的变体,根据单个单词候选词与所有候选词的频率比例,提高多单词候选词的权重。

- SGRank Algorithm
1)融合统计和图的方法
2)首次出现系数:PFO
在这里插入图片描述
3.3 总结
有监督和无监督各方法的优缺点:
在这里插入图片描述

4. 结果评估

4.1 评估方法
1)手动评估:人工判断检索到的关键短语是否能很好地代表文档内容。但人工评估昂贵耗时,且不适于进行参数调整。
2)通过部分匹配进行自动评估的系统:使用与金标准关键短语正确匹配的前N名候选词的数量。

4.2 评估指标
除了常见的精确度、召回率和F1值,还有R-p(R-precision),检索准确率。它定义为检索到的文档数等于文档集合中相关文档数时的精度。如果一个系统将所有关键词组都排在非关键词组之上,那么它将获得一个完美的R-p值。

讨论与推荐

本文对于关键词自动提取的各系统进行了全面总结,发现这些系统在关键短语提取的不同阶段显示了有价值的趋势:1)预处理和候选识别,2)特征工程,3)候选排序和关键短语评估。
1)在第一阶段,大多数系统使用基于POS或n-grams的方法,或者两者都使用。这一阶段的一个挑战是处理一个关键短语的结构,它有时可能是不规则的,它可能只包含一个单词或一个多单词的名词短语或多个多单词的名词短语,由介词连接。同时,预处理是很重要的,因为后续使用的特征包括句法/形态、统计和结构特征。
2)在特征工程阶段,自动关键短语提取的成功主要取决于所用特征的质量、数量和种类(统计、结构和语言),如短语的相对位置、关键短语、tf-idf、共现、短语候选长度等。
3)在排名阶段,一般来说,无监督系统可以节省大量时间,并且能够生成大量高质量的关键短语列表,这使得系统更加有效。
4)在评价阶段,应该考虑词的主题和上下文,以更好地表现关键词提取的准确率和召回率,以及每个文档的良好覆盖率。此外,还应进行语义评估,以便更准确地识别关键短语
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值