IE(关键词)—通过T5验证提示如何设计,细节原文阅读:A Preliminary Study on Prompt-based Unsupervised Keyphrase Extraction

A Preliminary Empirical Study on Prompt-based Unsupervised Keyphrase Extraction

基于提示的无监督关键词提取初步实证研究

paper:https://arxiv.org/abs/2405.16571

github:

本文探索的是基于提示的LLM在关键词抽取中的效果,也就是说,通过实验不同提示下的性能,从而分析提示工程的设计效果。主要方法是通过传统的方法获取候选关键词,然后将文档和候选关键词输入到T5中,候选关键词模版输入到decoder中,判断每个候选关键词的序列输出概率来作为其重要性指标,选择k个概率最高的作为最终的关键词,从而评估提示模版的设计。

1.背景动机

介绍LLM中的基于提示的学习:

基于提示的学习是一种新的范式,它取代了在下游任务中对大型预训练语言模型进行微调的做法。在本文中,我们利用编码器-解码器架构的大型预训练语言模型的能力,分析了用于无监督关键词提取的不同提示。

介绍本文主要的工作:

在本文中,从原始文档中提取候选关键词后,将输入文档输入编码器,并计算解码器通过设计的提示生成候选关键词的概率。概率越高,候选关键词就越重要。实验结果表明:

  • 设计复杂的提示不一定比设计简单的提示更有效;
  • 设计的提示中个别关键词的变化会影响整体性能;
  • 面对长文档时,设计复杂的提示比设计简单的提示性能更好。

2.Model

本文设计的具体流程:

  • 通过启发式规则从文档中提取候选词。
  • 获得候选词后,我们首先将文档纳入设计好的提示语,作为编码器的输入,然后将候选词输入解码器计算候选词的生成概率,作为设计好的提示语的重要性得分。
  • 最后,利用重要性得分对关键词进行排序和提取。

1.首先是候选关键词的抽取(利用以前的做法,即基于统计的方法):

在本文中,使用常见做法,使用正则表达式 < N N . ∗ ∣ J J > ∗ < N N . ∗ > <NN.*|JJ>*<NN.*> <NN.JJ><NN.> 提取候选关键词。

2.重要性评估:

用原始输入文档填充编码器模板,获得解码器模板与候选词的序列概率 p ( y i ∣ y < i ) p(y_{i}|y_{<i}) p(yiy<i),计算一个候选词的概率如下:
π c = − 1 l c ∑ i = m m + l c − 1 log ⁡ p ( y i ∣ y < i ) . (1) \pi_{c}=-\frac{1}{l_{c}}\sum_{i=m}^{m+l_{c}-1}\log p(y_{i}|y_{<i}).\tag{1} πc=lc1i=mm+lc1logp(yiy<i).(1)
其中, l c l_{c} lc 是每个候选关键词的长度。在这里,我们使用 π c \pi_{c} πc(其值为正)来评估候选关键词的重要性。然后,选择得分最高的 K K K 候选关键词作为最终的关键词集。

3.原文阅读

Abstract

预训练的大型语言模型可以通过人类设计的提示条件执行自然语言处理下游任务。然而,基于提示的方法往往需要 "提示工程 "来设计不同的提语,这些提示主要是通过费力的试错手工制作而成,需要人工干预和专业知识。在构建基于提示的关键词提取方法时,这是一个具有挑战性的问题。因此,我们调查并研究了不同提示在关键词提取任务中的有效性,以验证精挑细选的提示语对关键词提取性能的影响。在六个基准关键词提取数据集和不同的预训练大语言模型上的广泛实验结果表明:(1)设计复杂的提示不一定比设计简单的提示更有效;(2)设计的提示中个别关键词的变化会影响整体性能;(3)面对长文档时,设计复杂的提示比设计简单的提示语性能更好。

1 Introduction

关键词提取的目的是从输入文档中自动提取一组短语,以概括其核心主题和主要信息 Hasan 和 Ng (2014);Song 等人 (2023)。一般来说,关键词抽取模型是在许多文档-关键词数据对上进行训练的,Sun 等人(2021);Song 等人(2021);2023b, 2022a)。这些模型展示了从给定文档中获取关键词的卓越提取能力,尤其是基于大语言模型(LLM)的关键词提取系统。然而,无论是在无监督还是有监督的情况下,基于提示的关键词提取模型所提取的关键词质量都取决于输入提示的质量。为基于大型预训练语言模型的关键词提取模型设计适当的提示语具有挑战性,Wu 等人(2022);Song 等人(2023);Kong 等人(2023)。

介绍LLM中的基于提示的学习:

在这里插入图片描述

在自然语言处理领域,基于提示的学习是一种新的范式,它取代了在下游任务中对大型预训练语言模型进行微调的做法。与微调不同,自然语言的提示形式更符合模型的预训练任务。基于提示的学习已被广泛应用于许多自然语言处理任务中。在本文中,我们利用编码器-解码器架构的大型预训练语言模型的能力,分析了用于无监督关键词提取的不同提示

如图 1 所示,提取关键字词的一般过程使用基于编码器-解码器的大型预训练语言模型。这意味着提示的设计直接影响到基于提示语的关键词提取模型的性能。通常情况下,有效提取关键词的提示主要是通过费力的试错手工制作的,需要人工干预和专业知识 Kong 等人(2023);Song 等人(2023),e)。然而,以往关于关键词提取的研究并没有系统地尝试和分析是复杂的提示还是简单的提示更有效。

介绍本文主要的工作:

在本文中,我们直接利用具有编码器-解码器架构的大型预训练语言模型来测量相似度,而无需进行微调。具体来说,从原始文档中提取候选关键词后,我们将输入文档输入编码器,并计算解码器通过设计的提示生成候选关键词的概率。概率越高,候选关键词就越重要。在六个基准关键词提取数据集和不同模型上的实验结果表明:(1)设计复杂的提示不一定比设计简单的提示更有效;(2)设计的提示中个别关键词的变化会影响整体性能;(3)面对长文档时,设计复杂的提示比设计简单的提示性能更好。

2 Related Work

一般来说,无监督关键词提取方法分为三类:基于统计的模型、基于图的模型和基于嵌入的模型。基于统计的模型 Jones(2004);Campos 等人(2018)通过利用每个候选关键词的统计特征,如频率、位置、大小写和其他捕捉上下文信息的特征,来估算其重要性得分。基于图的模型 Mihalcea 和 Tarau(2004 年);Bougouin 等人(2013 年);Boudin(2018 年)首先由 TextRank Mihalcea 和 Tarau(2004 年)提出,该模型将每个候选关键词视为一个顶点,根据候选关键词的共现情况构建边,并通过 PageRank 算法确定顶点的权重。

基于嵌入的模型 Saxena 等人(2020 年);Sun 等人(2020 年);Bennani-Smires 等人(2018 年);Song 等人(2022 年);Zhang 等人(2022 年)已经实现了 SOTA 性能,这得益于最近预训练语言模型的发展,如 BERT Devlin 等人(2019 年)和 RoBERTa Liu 等人(2019 年)。然而,由于文档和候选文本的长度不匹配,这些算法在长文本上的表现不佳。Zhang 等人(2022 年)通过用屏蔽文档的嵌入替换候选文档的嵌入解决了这一问题,但如果不进行充分微调,就无法利用 PLM。为了解决这些问题,Kong 等人(2023 年)利用基于提示的学习方法进行无监督关键词提取。

在本文中,与现有模型不同的是,我们研究了提示设计在无监督关键词提取任务中的意义,利用了具有编码器-解码器架构的预训练语言模型的能力,如 T5 Raffel 等人(2020 年)。

3 Methodology

提示大型语言模型进行无监督关键词提取的主要流程如图 1 所示。根据最近的工作,我们通过启发式规则从文档中提取候选词。获得候选词后,我们首先将文档纳入设计好的提示语,作为编码器的输入,然后通过解码器计算候选词的生成概率,作为设计好的提示语的重要性得分。最后,利用重要性得分对关键词进行排序和提取。本文在分析不同提示语的影响时,没有为公平性引入额外的参数设计。

3.1.Candidate Extraction

1.首先是候选关键词的抽取(利用以前的做法,即基于统计的方法):

在本文中,我们效仿前人的研究,利用 Song 等人(2023 年)、Zhang 等人(2022 年)的常见做法,在标记化和 POS 标记之后,使用正则表达式 < N N . ∗ ∣ J J > ∗ < N N . ∗ > <NN.*|JJ>*<NN.*> <NN.JJ><NN.> 提取候选关键词。

3.2.Importance Estimation

2.重要性评估:

确切地说,我们用原始输入文档填充编码器模板,每次用一个候选文档填充解码器模板。然后,我们根据预先训练好的语言模型,如 T5 Raffel 等人(2020 年),获得解码器模板与候选词的序列概率 p ( y i ∣ y < i ) p(y_{i}|y_{<i}) p(yiy<i)。长度归一化对数似然因其卓越的性能而被广泛使用,Brown 等人(2020)。因此,我们计算一个候选词的概率如下:
π c = − 1 l c ∑ i = m m + l c − 1 log ⁡ p ( y i ∣ y < i ) . (1) \pi_{c}=-\frac{1}{l_{c}}\sum_{i=m}^{m+l_{c}-1}\log p(y_{i}|y_{<i}).\tag{1} πc=lc1i=mm+lc1logp(yiy<i).(1)
其中, l c l_{c} lc 是每个候选关键词的长度。在这里,我们使用 π c \pi_{c} πc(其值为正)来评估候选关键词的重要性。然后,选择得分最高的 K K K 候选关键词作为最终的关键词集。

4 Experiment

我们将介绍所使用的数据集和评估指标、实施细节和结果。

4.1 Datasets

在本文中,我们在六个广泛使用的关键词提取基准数据集上进行了实验,例如 Inspec(Hulth,2003 年)、DUC2001(Wan 和 Xiao,2008 年)、SemEval2010(Kim 等人,2010 年)、Se- mEval2017(Augenstein 等人,2017 年)、Nus(Nguyen 和 Kan,2007 年)以及 Krapivin(Krapivin 和 March- ese,2009 年)。

4.2 Evaluation Metrics

根据之前的研究(Song 等人,2023d,f,i,g;Kong 等人,2023),本文采用F1对排名前 5、10 和 15 的候选关键词进行评估。在计算 F1 分数时,我们删除了重复的候选关键词,并应用了词干处理。

4.3 Implementation Details

我们采用预训练的语言模型 T5(Raf- fel 等人,2020 年)作为骨干,由其预训练的权重初始化。其中,本文使用了两个版本,如 "T5-base "和 “T5-3B”。此外,我们还使用预训练好的语言模型 Flan-T5-base (Chung 等,2022 年)作为骨干进行实验。与最近的工作类似,为了与 BERT(Devlin 等,2019 年)的设置相匹配,编码器输入的最大长度设置为 512。此外,我们还使用了 Kong 等人(2023 年)的代码来完成本文的实验。不同之处在于,我们没有引入任何可调参数。更多详情,请参阅 Kong 等人 (2023)。

4.4.Results

在这里插入图片描述

如前所述,我们在本文中主要侧重于调查和研究不同提示语对关键词提取任务的有效性,以验证筛选出的提示语对提取关键词性能的影响。因此,我们设计了三种适合提取关键词的提示(从简单到复杂)。然后,我们在不同的大型预训练语言模型上进行实验,进一步替换提示语中的关键词,并分析筛选提示语的必要性。所有结果如表 1、表 2 和表 3 所示。接下来,我们将详细分析实验结果。

从表 1 的结果可以看出,在完全不使用提示语( p 1 p_{1} p1)的情况下,T5-base 和 T5-3b 的效果都很差,甚至 T5-3b 的效果还不如 T5-base,而 Flan-T5 的效果最好。在使用更详细的提示( p 2 p_{2} p2 p 3 p_{3} p3)后,可以发现 T5-3B 和 Flan-T5 的效果明显好于 T5-base。此外,从表 1 中还可以看出,无论是使用 T5-base、T5-3B 还是 Flan-T5,使用 p 2 p_{2} p2 作为提示语比使用 p 3 p_{3} p3 作为提示的效果更好。
在这里插入图片描述

许多现有方法都试图构建各种提示,例如修改提示中的不同关键词,以获得更好的性能。因此,我们也分析了修改提示中不同关键词对结果的影响。借鉴现有方法(Kong 等人,2023;Song 等人,2023c,e),我们修改了本文使用的三个提示中的关键词,并验证了它们的性能。结果如表 2 所示。从结果中我们可以发现,所设计的提示语(p1,3 , p2,6 , p3,3 )分别获得了最好的结果。但我们发现,在大多数情况下,改变不同的关键词对结果影响不大,这间接说明了构建精炼提示语的有效性,但需要大量的实验。

表 3 中的结果显示,在长文档数据集(如 SemEval2010 数据集)上,T5-3B 的性能明显优于 T5-base 和 Flan-T5。同时,p2,6 的结果明显优于 p1,3 和 p3,3,这表明设计复杂提示符的必要性。不同提示语的结果差异不大,因此根据现有结果进行精细提示语设计并不是一个合理的策略。相反,自动生成或搜索提示符应该更加方便和高效。
在这里插入图片描述

5 Conclusion

在本文中,我们研究了不同提示语的有效性,以验证精选提示语对关键词提取性能的影响。在六个基准关键词提取数据集和不同的预训练大语言模型上的广泛实验结果表明:(1)在大多数情况下,设计复杂的提示语并不一定比设计简单的提示语更有效;(2)提示语中单个关键词的变化会影响整体性能;(3)在面对长文档时,设计复杂的提示语比设计简单的提示语获得更好的性能。未来的研究可能会更好地将类似想法从短语级扩展到句子级信息提取(即提取总结任务(Song 等,2022b,2023a))。此外,通过关键词提取任务构建新的长语境基准也是可行的,例如 "大海捞针 "1 或 “数星星”(Song 等人,2024)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值