IE(关键词)—设计统计方法完成关键词排序,细节和原文阅读:An Efficient Domain-independent Approach for Supervised Keyphrase Extr

An Efficient Domain-independent Approach for Supervised Keyphrase Extraction and Ranking

与领域无关的高效关键字提取和排名监督方法

paper: https://arxiv.org/abs/2404.07954

github:

1.背景动机

介绍关键词抽取方法的发展:

深度学习解决关键词提取问题,通常将其作为关键词生成(预测 "不存在的 "关键词)任务。基于深度学习的提取方法在准确性指标上优于传统的无监督方法。然而,虽然 DL 方法对于高质量关键词生成的不可或缺性显而易见,但它们对于纯粹的关键词提取任务的优化性却值得商榷一些非 DL 监督 AKE 解决方案确实达到了接近基于 DL 技术的准确度水平,但这些解决方案在适用性上隐含着特定领域的特点

介绍本文提出的方法:

在本文主要基于易于计算的统计和位置特征,设计了一种轻量级监督机器学习方法,用于自动提取关键词。该方法不依赖于任何知识库(从训练集创建的短语频率语料库除外)。这使得该方法不受领域限制,能够更好地概括与更广泛的主题/领域相关的文档。

2.Model

介绍本文方法的步骤:1.获取候选keywords,2.计算每个keywords的特征,3.对keywords排序

(1) 从文档文本中提取候选短语

(2) 计算每个候选短语的特征

(3) 使用部分排序模型或使用步骤 2中特征的分类模型对候选短语进行排序。模型会给每个候选短语打分,然后选出前 k 个关键短语。

1.Problem Formulation (问题表述,即如何排序关键词):

将选择关键词视为一个部分排序问题。找到一个评分函数 F \mathcal{F} F ,使得在输入文档 D \mathcal{D} D 中有 ∣ P   ∣ |\mathcal{P}\ | P  不同的候选短语 P = { p 1     p 2   … ,   p ∣ P ∣ } \mathcal{P}=\{p_{1}\,\ p_{2}\,\ldots,\ p_{|\mathcal{P}|}\} P={p1 p2, pP} 时,函数 F : P ↦ R \mathcal{F}:P \mapsto\mathbb{R} FPR 是这样的: F ( p i ) ≥ F ( p j ) 1 L D ( p 1 ) \mathcal{F}(p_{i})\geq \mathcal{F}(p_{j})\mathbf{1}_{\mathcal{L}\mathcal{D}}\left(p_{1}\right) F(pi)F(pj)1LD(p1) ≥ 1 L D ( p j ) \geq\mathbf{1}_{L\mathcal{D}}\left(p_{j}\right) 1LD(pj) where 1 L D ( . ) \mathbf{1}_{\mathcal{L}\mathcal{D}}\left(.\right) 1LD(.)是指标函数,其中 K D \mathcal{K}_{\mathcal{D}} KD是文档 D \mathcal{D} D的 "理想 "关键词集。换句话说,如果一个短语 p a p_{a} pa 的得分高于短语 p b p_{b} pb,那么 p a p_{a} pa p b p_{b} pb 相比一定是同样 "理想 "或更 “理想”,也就是说,不可能出现 p a p_{a} pa 不是 "理想 "关键词而 p b p_{b} pb 是的情况。或者更简单地说,理想关键词的得分不应该低于任何非关键词。当然, K m a t h c a l D \mathcal{K}_{mathcal{D}} KmathcalD 并不是先验已知的(除非文档属于训练集)–推断 K D \mathcal{K}_{\mathcal{D}} KD 是我们模型的目标。在训练阶段,我们使用贴有标签的数据集,在这些数据集中,已知由作者、审稿人或专家读者手动分配给每篇文档的关键词;我们将这些关键词视为相应文档的理想关键词,这构成了我们监督学习解决方案的基础。

本文用两种方法解决排名问题:(1) 使用 LTR(学习排名)技术;(2) 训练二元分类器。

  • 在第(1)种方法中,学习排序模型–真正的关键词被赋予等级值 1,而所有其他候选短语被赋予等级值 0。在预测过程中,排名模型预测的分数被用来对候选短语进行排序,并选出前 k 个。
  • 在方法(2)中,我们直接训练二元分类器;在预测过程中,分类器输出中正类的概率分数被视为排名分数。

2.计算每个候选短语的特征:

2.1.Statistical features(统计特征):

统计特征代表了短语在出现该短语的文档上下文中的各种分布属性。本文不使用 TF-IDF 作为特征。而是将术语频率与文档频率解耦。

短语数(Phrase count): 候选短语在文档中出现的次数。

在文档中仅出现一两次的短语不太可能是主要内容或实体的核心。关键短语通常会在文档中出现多次,但并不一定是出现频率最高的前 5 个短语。频率非常高的短语可能会变成非关键词。

文档频率(最大缩放,Document frequency (max-scaled)): 候选短语的缩放文档频率计算公式如下:
D F S ( p D )  ⁣ ⁣ =  ⁣ ∣ ∣ d ∈ T  ⁣ :  ⁣ p D ∈ d ∣ ∣ m a x q ∈ d ′ , d ′ ∈ T ∣ ∣ d ∈ T  ⁣ :  ⁣ q ∈ d ∣ ∣ (1) \mathit{DFS}(p_{D})\!\!=\!\frac{||d\in T\!:\!p_{D}\in d||}{max_{q\in d^{ \prime},d^{\prime}\in T}||d\in T\!:\!q\in d||} \tag{1} DFS(pD)=maxqd,dT∣∣dT:qd∣∣∣∣dT:pDd∣∣(1)
_其中 p D \mathbf{p}_{D} pD 是输入文档 D D D 的候选短语, T T T 是训练集中的文档集。

后缀短语频率(Suffix phrase frequency): 在文档的不同句子中,一个基调名词短语可能会与不同的前缀形容词搭配使用。

目前,只考虑短语的最后两个词作为后缀。例如,在一篇以 "graph colouring 为主题的文章中,该短语可能作为一个完整的(不含形容词)名词短语出现在几个句子中,而在其他句子中,它可能作为 "conventional graph colouring"和 "approximate graph colouring"等更大的名词短语的一部分出现。较长的 N-gram(即 N 值较大)的出现频率通常低于较短的 N-gram。如果知道 "approximate graph colouring"这个 3-gram 有一个在文档中出现频率很高的后缀,尽管这个 3-gram 本身在文档中只出现过一两次,那么这个 3-gram 就有可能成为一个很好的候选关键词。注:对于 1-gram 和 2-gram 短语,该功能默认为完整短语的频率。

后缀短语文档频率(Suffix phrase document frequency): 这是后缀短语频率的对应文档频率(缩放变量),类似于前面提到的文档频率特征对术语频率的补充。

参照前面的例子 “approximate graph colouring”,该特征表示(训练语料库中的)出现 2 格后缀(即 “graph colouring”)的文档数量。

后缀短语在每篇文档中的平均出现频率(Suffix phrase average per-doc frequency): 给定候选短语 p p p 的 2-gram 后缀 m a t h b f p s mathbf{p}_{s} mathbfps 作为一个完整短语在训练文档中出现的平均次数
∑ d ∈ T T e r m F r e q (   p s   ,   d   ) ∣ d ∈ T : p s ∈ d ∣ (2) \frac{\sum_{d\in T}\mathit{TermFreq}(\,p_{s}\,,\,d\,)}{|{ d\in T : p_{s }\in d|}} \tag{2} dT:psddTTermFreq(ps,d)(2)
其中 T T T 表示训练集文档, T e r m F r e q ( q ,   d ) \mathit{TermFreq}(q,\,d) TermFreq(q,d) 是短语 q q q 在文档 d d d 中的词频(出现次数)。这一特征背后的理念是,与其他文档相比,当前文档中出现频率更高的短语成为当前文档关键词的几率可能更高。

词语组合可能性(Word combination likelihood): 给定一个短语 p = w 1   w 2   …   w n \mathbf{p}=\mathbf{w}_{1}\,\mathbf{w}_{2}\,\ldots\,\mathbf{w}_{n} p=w1w2wn 其中 w 1 \mathbf{w}_{1} w1 w 2 \mathbf{w}_{2} w2, … \ldots , w n \mathbf{w}_{n} wn是单词的成分(unigrams),该特征的计算公式为:
∏ p p r e f ( w 1 ) , p p r e f ( w 2 ) , . . . , p p r e f ( w n − 1 ) , p p r e f ( w n ) n (3) \sqrt[n]{\prod p_{pref}(w_1),p_{pref}(w_2),...,p_{pref}(w_{n-1}),p_{pref}(w_n) } \tag{3} nppref(w1),ppref(w2),...,ppref(wn1),ppref(wn) (3)
其中, f p r e f ( w i ) \mathbf{f}_{\mathit{pref}}(\mathbf{w}_{i}) fpref(wi) 表示 w i \mathbf{w}_{i} wi 作为后缀的文档频率(最大缩放),即表示训练语料库中 w i \mathbf{w}_{i} wi 作为某个短语的前缀(第一个词)出现的文档数量。 f s u f f i x ( w i ) f_{\mathit{suffix}}(\mathbf{w}_{i}) fsuffix(wi)类比表示 w i \mathbf{w}_{i} wi作为某个短语的后缀(最后一个词)出现的文档数量。这一特征可以粗略估计由组成词随机组合而成的多格短语出现的可能性。多格词组的出现频率通常低于单格词组。基于几何平均的估计是为了使模型更能适应这种频率上的规模差异,也是为了帮助它了解随机概率可能性与候选短语的实际文档频率之间的差异如何影响关键短语的选择。

2.2.Positional and other features(位置和其他特征):

首次出现指数(First occurrence index): 从文档中提取的所有候选短语列表中首次出现的给定短语的指数,按比例缩小并四舍五入。

我们之所以选择这一特征,是因为基准数据集由学术论文或报告文档组成,这些文档的开头都有一个摘要或摘要部分,然后是一个类似导言的部分。在这种结构的文档中,短语首次出现的位置与它成为关键词的可能性密切相关。

N-gram 大小(N-gram size): 给定短语的字数。

之所以使用这种大小,是因为在人工分配的关键词中很少出现长词组,而且在短词组中也可能出现偏好 2 个词组而非 3 个词组的情况,反之亦然。

3.Implementation Details(具体实施细节):

使用 SpaCy 库提取候选短语。只选择由不超过一个形容词后跟一个或多个名词组成的名词短语;

具体:大多数关键短语都是上述类型的名词短语。本文只保留短语中名词前的一个形容词。与其他 AKE 算法不同,不对短语进行词干处理,而是对名词短语中的基础名词进行词素化处理,将复数形式转换为单数形式。在训练阶段,首先将提取的短语汇总到各个文档中,并写入短语文档频率语料库,随后用于模型训练和新文档的预测。

如1所属,本文尝试了两种方法对候选关键词进行排名。为直接排名法训练了 XGBRanker模型,为分类法训练了 XGBClassifier分类器模型。在这两种情况下,训练标签都是二进制的,1 表示候选短语是该文档的关键短语,0 表示否则。

3.原文阅读

Abstract

我们提出了一种从单个文档中自动提取关键词的监督学习方法。我们的解决方案使用简单的方法计算候选短语的统计和位置特征,不依赖任何外部知识库或预先训练的语言模型或词嵌入。我们提出的解决方案中的排序部分是一个相当轻量级的集合模型。在基准数据集上进行的评估表明,我们的方法比几种最先进的基线模型(包括与之相比的所有基于深度学习的无监督模型)的准确率高出很多,与一些基于监督深度学习的模型相比也具有竞争力。尽管我们的解决方案具有监督性质,但它并不依赖于任何 "黄金 "关键词语料库或任何外部知识语料库,这意味着我们的解决方案在相当程度上具有无监督解决方案的优势

1 Introduction

介绍关键词抽取的概念:

关键词预测是找到最能代表文档主要文本内容的一小组短语的过程。它在搜索和信息检索中发挥着重要作用,为索引、分类、组织和总结文档提供了便捷的方法 [1,2]。关键字既可以是在文档中出现的 “存在关键字”,也可以是 “不存在关键字”,即不匹配文本中的任何词序,但代表文档中讨论的主题词或概念[3]。在本文中,我们要解决的问题是自动选择一组好的 "存在的 "关键词,这项任务通常被称为 AKE 或 PKE(自动/存在的关键词提取),或简称为关键词提取。

介绍关键词抽取方法的发展:

近年来,人们开始转向使用深度学习(DL)来解决关键词提取问题,通常将其作为关键词生成(预测 "不存在的 "关键词)任务的一个变体[3]。多项研究[2, 3]表明,基于深度学习的提取方法在准确性指标上优于传统的无监督方法。然而,虽然 DL 方法对于高质量关键词生成的不可或缺性显而易见,但它们对于纯粹的关键词提取任务的优化性却值得商榷。并不是所有需要提取关键词的应用都能从 F1 分数的 0.05 提升中获益,而这需要付出高昂的 LLM 成本。一些著名的非 DL 监督 AKE 解决方案确实达到了接近基于 DL 技术的准确度水平,但这些解决方案在适用性上隐含着特定领域的特点

介绍本文提出的方法:

在本文中,我们主要基于易于计算的统计和位置特征,设计了一种轻量级监督机器学习方法,用于自动提取关键词。与之前已知的达到类似准确率水平的非 DL 方法不同,我们的方法不依赖于任何知识库(从训练集创建的短语频率语料库除外),无论是语义关系知识图谱、预先计算的主题模型或词嵌入,还是 "黄金 "关键词语料库(又称种子关键词或核心关键词)。这使得我们的方法相当不受领域限制,能够更好地概括与更广泛的主题/领域相关的文档。我们在广泛使用的基准数据集上评估了我们的模型。在我们用于评估的两个基准数据集上,我们的模型超过了多个基准模型,包括一些深度学习模型的准确性。在其中一个数据集上,我们模型的准确率非常接近基于 LLM 的解决方案所达到的水平。

2 Related Work

自动关键词提取方法大致分为无监督和有监督两种类型。在无监督方法中,AKE 被视为一个排序问题。由于在这些方法中无法获取注释数据,因此候选词排序是通过启发式计算的分数完成的。根据用于计算分数的特征类型,无监督方法又可分为统计方法和基于图的方法。统计方法(如 TF-IDF [4] 和 YAKE [5])使用词频和共现计数等统计特征。相比之下,基于图的方法(如 TextRank [6])则构建了文本的图表示,例如将单词作为节点,将它们的共现作为边。然后,使用节点排名算法(如 PageRank)对词/短语进行排序,并返回前 k 个候选关键词。

在有监督的方法中,分类器是在注有关键词的文档上训练出来的,然后在新文档上使用该分类器来确定候选短语是否是关键词。最早的关键词提取方法之一是 KEA [7],它使用 TF-IDF 分数和首次出现位置作为候选短语的特征来训练 Naive Bayes 分类器。

有监督和无监督的方法都可以使用外部知识来选择候选词并进行排序。例如,Maui[8]是一种有监督的方法,它根据候选短语在训练语料中作为关键短语出现的频率来计算关键短语特征(注:这与短语在训练语料中的文档频率(DF)不能混为一谈;DF不需要知道短语在训练语料中是否是关键短语)。KeyCluster [9] 是一种无监督方法,它使用维基百科数据来计算术语相关性。

近年来,深度学习已成为关键词预测解决方案的首选机制。这些解决方案既可以仅用于关键词提取(如 EmbedRank [10] 和 UKERank [11]),也可以用于缺失/抽象关键词生成(如 CopyRNN [12])。

3 Our Approach

在本节和下一节中,我们将介绍新颖的关键词提取方法。该方法包括三个主要步骤:

介绍本文方法的步骤:1.获取候选keywords,2.计算每个keywords的特征,3.对keywords排序

(1) 根据语音部分序列从文档文本中提取候选短语

(2) 计算每个候选短语的特征

(3) 使用部分排序模型或使用步骤 2 中特征的分类模型对候选短语进行排序。模型会给每个候选短语打分,然后我们选出前 k 个关键短语,其中 k 是希望从每个输入文档中选出的关键短语数量。

3.1.Problem Formulation

将选择关键词视为一个部分排序问题。找到一个评分函数 F \mathcal{F} F ,使得在输入文档 D \mathcal{D} D 中有 ∣ P   ∣ |\mathcal{P}\ | P  不同的候选短语 P = { p 1     p 2   … ,   p ∣ P ∣ } \mathcal{P}=\{p_{1}\,\ p_{2}\,\ldots,\ p_{|\mathcal{P}|}\} P={p1 p2, pP} 时,函数 F : P ↦ R \mathcal{F}:P \mapsto\mathbb{R} FPR 是这样的: F ( p i ) ≥ F ( p j ) 1 L D ( p 1 ) \mathcal{F}(p_{i})\geq \mathcal{F}(p_{j})\mathbf{1}_{\mathcal{L}\mathcal{D}}\left(p_{1}\right) F(pi)F(pj)1LD(p1) ≥ 1 L D ( p j ) \geq\mathbf{1}_{L\mathcal{D}}\left(p_{j}\right) 1LD(pj) where 1 L D ( . ) \mathbf{1}_{\mathcal{L}\mathcal{D}}\left(.\right) 1LD(.)是指标函数,其中 K D \mathcal{K}_{\mathcal{D}} KD是文档 D \mathcal{D} D的 "理想 "关键词集。换句话说,如果一个短语 p a p_{a} pa 的得分高于短语 p b p_{b} pb,那么 p a p_{a} pa p b p_{b} pb 相比一定是同样 "理想 "或更 “理想”,也就是说,不可能出现 p a p_{a} pa 不是 "理想 "关键词而 p b p_{b} pb 是的情况。或者更简单地说,理想关键词的得分不应该低于任何非关键词。当然, K m a t h c a l D \mathcal{K}_{mathcal{D}} KmathcalD 并不是先验已知的(除非文档属于训练集)–推断 K D \mathcal{K}_{\mathcal{D}} KD 是我们模型的目标。在训练阶段,我们使用贴有标签的数据集,在这些数据集中,已知由作者、审稿人或专家读者手动分配给每篇文档的关键词;我们将这些关键词视为相应文档的理想关键词,这构成了我们监督学习解决方案的基础。。

我们用两种方法解决排名问题:(1) 使用 LTR(学习排名)技术;(2) 训练二元分类器。在第(1)种方法中,通过将训练数据视为有价值的等级来学习排序模型–真正的关键词被赋予等级值 1 ,而所有其他候选短语被赋予等级值 0 ,而所有其他候选短语被赋予等级值 0 ,而所有其他候选短语被赋予等级值0。在预测过程中,排名模型预测的分数被用来对候选短语进行排序,并选出前 k 个。在方法(2)中,我们直接训练二元分类器;在预测过程中,分类器输出中正类的概率分数被视为排名分数。

3.2.Features

我们将在下文介绍我们为每个候选短语计算的特征,并将其作为模型的输入。

3.2.1 Statistical features

这些特征代表了短语在出现该短语的文档上下文中和/或在训练集中看到的文档集合中的各种分布属性。与其他使用统计特征的已知方法不同,我们不使用 TF-IDF 作为特征。我们将术语频率与文档频率解耦,具体原因将在附录中详细说明;我们相信,这种解耦使得我们的模型能够达到比使用 TF-IDF 时更高的准确率。我们对文档频率的表述也与 TF-IDF 中文档频率的传统定义略有不同。

短语数: 候选短语在文档中出现的次数。根据经验观察,在文档中仅出现一两次的短语不太可能是主要内容或实体的核心。关键短语通常会在文档中出现多次,但并不一定是出现频率最高的前 5 个短语。频率非常高的短语可能会变成非关键词(例如,"法律程序 "可能是法律文档中出现频率非常高的术语,但一般不会被视为该文档的关键词),但这在很大程度上取决于文档的内容和表现形式。我们的模型负责推断一个短语成为关键词的频率和可能性之间的关系。

文档频率(最大缩放): 候选短语的缩放文档频率计算公式如下:

D F S ( p D )  ⁣ ⁣ =  ⁣ ∣ ∣ d ∈ T  ⁣ :  ⁣ p D ∈ d ∣ ∣ m a x q ∈ d ′ , d ′ ∈ T ∣ ∣ d ∈ T  ⁣ :  ⁣ q ∈ d ∣ ∣ (1) \mathit{DFS}(p_{D})\!\!=\!\frac{||d\in T\!:\!p_{D}\in d||}{max_{q\in d^{ \prime},d^{\prime}\in T}||d\in T\!:\!q\in d||} \tag{1} DFS(pD)=maxqd,dT∣∣dT:qd∣∣∣∣dT:pDd∣∣(1)
_其中 p D \mathbf{p}_{D} pD 是输入文档 D D D 的候选短语, T T T 是训练集中的文档集。这一特征的驱动力来自于一个被广泛观察到的趋势,即出现在极高比例文档中的术语往往过于通用,无法成为关键词。例如,"相关工作 "和 "参考文献 "出现在大多数研究论文中,而这些术语很少成为关键词。请注意,我们并没有遵循在缩放后应用对数变换的惯例;相反,我们让模型隐式地学习最佳变换。

后缀短语频率: 这一功能基于这样一个事实,即在文档的不同句子中,一个基调名词短语可能会与不同的前缀形容词搭配使用。目前,我们只考虑短语的最后两个词作为后缀。例如,在一篇以 "图形着色 "为主题的文章中,该短语可能作为一个完整的(不含形容词)名词短语出现在几个句子中,而在其他句子中,它可能作为 "常规图形着色 "和 "近似图形着色 "等更大的名词短语的一部分出现。较长的 N-gram(即 N 值较大)的出现频率通常低于较短的 N-gram。如果知道 "近似图形着色 "这个 3-gram 有一个在文档中出现频率很高的后缀,尽管这个 3-gram 本身在文档中只出现过一两次,那么这个 3-gram 就有可能成为一个很好的候选关键词。注:对于 1-gram 和 2-gram 短语,该功能默认为完整短语的频率。

后缀短语文档频率: 这是后缀短语频率的对应文档频率(缩放变量),类似于前面提到的文档频率特征对术语频率的补充。参照前面的例子 “近似图形着色”,该特征表示(训练语料库中的)出现 2 格后缀(即 “图形着色”)的文档数量。

后缀短语在每篇文档中的平均出现频率: 给定候选短语 p p p 的 2-gram 后缀 m a t h b f p s mathbf{p}_{s} mathbfps 作为一个完整短语在训练文档中出现的平均次数,其中 m a t h b f p s mathbf{p}_{s} mathbfps 至少出现过一次,即 m a t h b f p s mathbf{p}_{s} mathbfps 作为一个完整短语在训练文档中出现的平均次数。

KaTeX parse error: Invalid delimiter type 'ordgroup' at position 59: …\,,\,d\,|}{\big{̲|̲}̲d\in T\,:\,p_{s… ∑ d ∈ T T e r m F r e q (   p s   ,   d   ) ∣ d ∈ T : p s ∈ d ∣ (2) \frac{\sum_{d\in T}\mathit{TermFreq}(\,p_{s}\,,\,d\,)}{|{ d\in T : p_{s }\in d|}} \tag{2} dT:psddTTermFreq(ps,d)(2)
其中 T T T 表示训练集文档, T e r m F r e q ( q ,   d ) \mathit{TermFreq}(q,\,d) TermFreq(q,d) 是短语 q q q 在文档 d d d 中的词频(出现次数)。这一特征背后的理念是,与其他文档相比,当前文档中出现频率更高的短语成为当前文档关键词的几率可能更高。

词语组合可能性: 给定一个短语 p = w 1   w 2   …   w n \mathbf{p}=\mathbf{w}_{1}\,\mathbf{w}_{2}\,\ldots\,\mathbf{w}_{n} p=w1w2wn 其中 w 1 \mathbf{w}_{1} w1 w 2 \mathbf{w}_{2} w2, … \ldots , w n \mathbf{w}_{n} wn是单词的成分(unigrams),该特征的计算公式为:

∏ p p r e f ( w 1 ) , p p r e f ( w 2 ) , . . . , p p r e f ( w n − 1 ) , p p r e f ( w n ) n (3) \sqrt[n]{\prod p_{pref}(w_1),p_{pref}(w_2),...,p_{pref}(w_{n-1}),p_{pref}(w_n) } \tag{3} nppref(w1),ppref(w2),...,ppref(wn1),ppref(wn) (3)
其中, f p r e f ( w i ) \mathbf{f}_{\mathit{pref}}(\mathbf{w}_{i}) fpref(wi) 表示 w i \mathbf{w}_{i} wi 作为后缀的文档频率(最大缩放),即表示训练语料库中 w i \mathbf{w}_{i} wi 作为某个短语的前缀(第一个词)出现的文档数量。 f s u f f i x ( w i ) f_{\mathit{suffix}}(\mathbf{w}_{i}) fsuffix(wi)类比表示 w i \mathbf{w}_{i} wi作为某个短语的后缀(最后一个词)出现的文档数量。这一特征可以粗略估计由组成词随机组合而成的多格短语出现的可能性。多格词组的出现频率通常低于单格词组。基于几何平均的估计是为了使模型更能适应这种频率上的规模差异,也是为了帮助它了解随机概率可能性与候选短语的实际文档频率之间的差异如何影响关键短语的选择。

3.2.2 Positional and other features

首次出现指数: 从文档中提取的所有候选短语列表中首次出现的给定短语的指数,按比例缩小并四舍五入。我们之所以选择这一特征,是因为基准数据集由学术论文或报告文档组成,这些文档的开头都有一个摘要或摘要部分,然后是一个类似导言的部分。在这种结构的文档中,短语首次出现的位置与它成为关键词的可能性密切相关。我们发现许多文档的摘要中至少有一两个关键词。为避免过度拟合,我们将索引除以一个常数(实验中设定为 25),并将结果四舍五入为最接近的整数。

N-gram 大小: 给定短语的字数。之所以使用这种大小,是因为在人工分配的关键词中很少出现长词组(在基准数据中超过 4 个字),而且在短词组中也可能出现偏好 2 个词组而非 3 个词组的情况,反之亦然。

3.3.Implementation Details

我们使用 SpaCy 库 [13] 提取候选短语。我们只选择由不超过一个形容词后跟一个或多个名词组成的名词短语;我们之前对多个基准数据集的分析表明,大多数关键短语都是上述类型的名词短语。我们对包含一个以上形容词前缀的名词短语进行了修剪,只保留短语中名词前的一个形容词。与其他 AKE 算法不同,我们不对短语进行词干处理,而是对名词短语中的基础名词进行词素化处理,将复数形式转换为单数形式。在训练阶段,首先将提取的短语汇总到各个文档中,并写入短语文档频率语料库,随后用于模型训练和新文档的预测。

由于我们用于训练和评估模型的数据集只包含学术论文,尽管这些论文来自不同的学科,因此在候选词提取步骤中,我们选择跳过 "参考文献 "和 "致谢 "部分的文本。这样做的目的是为了减少数据中的噪音,因为我们预计这些关键词会出现在文档的主要内容中。出乎我们意料的是,在模型评估过程中,我们发现有几篇文章的某些关键词集中在参考文献部分。不过,我们决定将这些情况作为特例处理,并选择不改变排除逻辑。除了这个简单的排除逻辑,我们没有在任何地方使用章节类型。我们希望我们的模型能够很好地泛化不同的文档类型–基于章节类型的额外过滤逻辑或特征将不利于这种泛化能力。

如前所述,我们尝试了两种方法对候选人进行排名。我们为直接排名法训练了 XGBRanker(基于梯度提升的排名器,[14])模型,为分类法训练了 XGBClassifier(基于梯度提升的分类器,[14])模型。在这两种情况下,训练标签都是二进制的,1 表示候选短语是该文档的关键短语,0 表示否则。XGBRanker 模型希望训练集能根据这些行所涉及的 "查询 "来指定行的分组,其目的是在训练排名器时,它必须只比较实际会相互竞争排名的对象。由于候选短语将在所有短语所属的单个文档范围内进行排名,因此只需将 "qid "列(参见 XGBRanker 文档)设置为数据集中文档的唯一 id 即可。

4 Evaluation

在这里插入图片描述

我们在 SemEval2010 和 Krapivin 这两个英语文档基准数据集上评估了我们的模型。表 1 列出了每个数据集的统计概况。我们使用 F1 分数作为将我们的模型与基准模型进行比较的指标。更具体地说,我们计算的是根据模型选择前 5 和前 10 个关键词时所获得的 F1 分数(即 F1@5 和 F1@10)。结果如表 2 所示。我们没有进行实验来评估基准模型。相反,我们给出了这些模型的原始论文或我们参考的调查论文[2, 3]所报告的 F1 分数。

对于我们模型的直接排名变体(表 2 中用 "XGBRanking "表示),我们尝试了两个子变体,它们根据训练排名器时使用的目标函数而有所不同–一个版本的模型使用最大平均精度(MAP),而另一个版本使用归一化贴现累积增益(NDCG)。我们基于分类器的排名方法在表 2 中用 "XGBClassif "表示。在这种方法中,XGBClassifier 预测输出中与正类相关的概率分数被用作候选者排名的分数。

在这里插入图片描述

总体而言,基于 XGBClassifier 的方法和基于 XGBRanker 的方法在准确率方面没有明显差异,不过前者在 Krapivin 数据集上表现更好,后者在 SemEval2010 数据集上表现更好。可以看出,我们的所有模型变体都优于所有无监督基准模型的准确率水平,包括所有基于深度学习的无监督模型。事实上,如果只考虑 F1@10 分数,我们的模型与基于 DL 的有监督关键词生成模型 CopyRNN 和基于 LLM 的模型 CatSeq 相比都具有竞争力。在 Krapivin 数据集上,我们的 XGBClassifier 模型变体的 F1@10 分数优于 CopyRNN,而在 SemEval2010 数据集上,我们的 F1@10 分数仅比 CopyRNN 低 0.038。诚然,我们模型的 F1@5 分数明显低于 SemEval2010 数据集上的有监督 DL 模型。这可能与以下事实有关:SemEval2010 数据集中每篇文档出现的关键词平均数量约为 14 个,而在 Krapivin 数据集中仅为 5 个。我们的模型在选择前 5 个候选关键词时可能会出现较高程度的混淆,但随着选择规模的增大,大多数真正的前 5 个关键词都能进入模型选择的前 10 个候选关键词,因此我们的模型表现更好。一个更合理的解释是,SemEval2010 数据集中真实关键词的选择具有较高的主观性和不一致性。例如,该数据集中的文档 J-10 在真实集中有两个 1-gram 关键字,即 “rating”(评级)和 “correlation”(相关性),其 TF-IDF 分数分别为 225.84 和 8.705。但该文档还包含候选关键词 "cleanliness "和 “tripadvisor”,其 TF-IDF 分数分别为 35.75 和 42.9,即明显高于 "correlation "的分数。而且这两个词在文档中出现的时间也早于 "相关性 "的首次出现时间。然而,这两个候选关键词都没有出现在 J-10 的真正关键词列表中。在 SemEval2010 中的其他几篇文档中,我们看到词频和/或首次出现时间与该短语成为真正关键词的可能性之间存在着更为一致的相关性。相比之下,在 Krapivin 数据集中的大多数文档中,真正关键短语的选择与我们的特征之间的相关性更为一致,也就是说,由于关键短语选择的主观性而产生的噪音较少。这显然会让模型更容易学习到 Krapivin 数据集中关键字选择背后的模式。

另一个可能会引起质疑的现象是,Maui 和 WINGNUS 这两个非 DL 监督模型的 F1@5 分数非常接近或略高于我们的模型。不过,这可以用这样一个事实来解释:这些模型利用了外部知识语料库,从而提高了它们在构成这两个基准数据集的学术文章上的具体表现能力。Maui [8] 的关键词特征依赖于 "黄金 "关键词语料库,这实际上是在记忆以前见过的关键词,从而获得强有力的外部提示,知道哪些短语更有可能再次被选为关键词。这将严重影响模型在主要主题与训练集中的主题截然不同的文档上的良好表现。此外,在处理来自技术博客、新闻文章等来源的文档时,获得足够大的 "黄金 "关键词语料库是不切实际的,因为这些来源很难获得高质量的注释数据,或者注释数据的成本很高。WINGNUS [15] 利用了 DBLP,这是一个包含计算机科学领域数百万学术文章和会议论文书目信息的数据库。它还使用了大量为学术文章量身定制的功能,例如候选短语是否出现在摘要、参考文献和引言部分。因此,WINGNUS 也不太可能在非学术文章,甚至是计算机科学领域以外的学术文章中表现出色。相比之下,我们的模型在预测阶段不依赖任何注释数据。虽然我们使用的是短语文档频率语料库,但该语料库可以从未加注释的文档中创建,也不局限于从学术文章中创建。因此,与 Maui 和 WINGNUS 相比,我们的模型有望在新的文档类型上具有更好的通用性。

5.CONCLUSION AND FUTURE WORK

我们提出了一种新颖的关键词提取技术,与之前的工作相比,该技术在多个角度都具有优势。我们的方法采用了轻量级的集合模型,但准确度却大大优于大多数基准模型,而且与基于深度学习的先进解决方案所达到的准确度相当接近。它不需要任何外部知识库或海量注释数据就能达到这些准确率水平;因此,它不是针对特定领域的,可以更好地进行泛化。它不需要任何预训练的语言模型或嵌入。另一个显著的优点是,我们的模型只需要在中小型数据集上进行训练,就能达到与基于有监督 DL 模型相当的准确率水平。这与需要更大标注训练集的有监督深度学习模型形成了鲜明对比;例如,CopyRNN[12]就是使用超过 50 万篇作者注释的科学论文进行训练的。

未来的工作将包括研究如何通过引入一些更简单的特征来提高我们模型的准确性,以及在更多数据集上评估我们的模型。我们还将探索添加基于图的轻量级特征的实用性,不过我们也可能会注意到,一些已经使用的统计特征(如后缀短语频率)隐含地捕捉了少量可更直接地推导为基于图的属性的属性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值