EMNLP2023 | 基于显式证据推理的few-shot关系抽取CoT

深度学习自然语言处理 原创作者:wkk

论文:Chain of Thought with Explicit Evidence Reasoning for Few-shot Relation Extraction地址:https://arxiv.org/abs/2311.05922

Few-shot关系提取涉及使用有限数量的注释样本识别文本中两个特定实体之间的关系类型。通过应用元学习和神经图技术,已经出现了对这个问题的各种解决方案,这些技术通常需要训练过程进行调整。

最近,上下文学习策略已被证明在没有训练的情况下显示出显著的结果。很少有研究利用上下文学习进行zero-shot信息提取。不幸的是,推理的证据在思维链提示的构建过程中没有被考虑或隐式建模。

本文提出了一种使用大型语言模型进行Few-shot关系提取的新方法,称为CoT-ER,具有显式证据推理的思维链。特别是,CoT-ER首先诱导大型语言模型使用特定任务和概念级知识生成证据。然后将此证据明确纳入思维链提示以进行关系提取。实验结果表明,在FewRel 1.0和FewRel 2.0数据集上,与完全监督(具有100%训练数据)的最先进方法相比,本文的CoT-ER方法(具有0%训练数据)实现了具有竞争力的性能。

关系提取(Relation Extraction, RE)旨在基于上下文语义信息识别两个给定实体之间的关系。

当标记的数据不足时,RE模型的性能往往会显著下降。few-shot关系提取任务需要使用有限数量的注释训练数据。最近,许多研究人员通过使用元学习和神经图技术来解决这个问题,通过在大型数据集上对模型进行元训练或结合外部知识,取得了令人满意的结果。

近年来,预训练的LLMs,如GPT系列模型,已经显示出显著的上下文学习(LLM可以有效地执行各种任务,而无需参数优化,这一概念被称为上下文学习)能力,在许多NLP任务中取得了出色的结果。在上下文学习的范式中,LLM在许多NLP任务中表现出与标准的完全监督方法相比的竞争性能,即使只提供了几个示例作为提示中的few-shot示例。

思维链(Chain-of-Thought, CoT)提示方法在数学问题和常识推理中从LLM引出令人印象深刻的推理能力。在RE任务中,存在指导LLM确定关系标签的推理过程。然而,缺乏填补这一空白的研究。尽管GPT-RE引入了一种标签诱导推理方法,通过提示LLM仅基于给定的标签生成合适的推理过程。与特定的few-shot示例检索方法相比,自动生成推理过程的性能改进微乎其微。

本文为FSRE(Few-shot Relation Extraction, FSRE)任务提出了一种新的思想链提示方法:具有显式证据推理的思想链,与FewRel 1.0和FewRel 2.0上的最先进结果相比,获得了具有竞争力的结果。本文的方法采用三步推理方法来解决上述问题。在第一步和第二步中,CoT-ER要求LLM输出与头部和尾部实体相对应的概念级实体,这是RE特定推理的基础。在第三步中,CoT-ER提示LLM提取相关的上下文跨度作为明确建立这两个实体之间特定关系的证据。通过将头部实体、尾部实体和关系标签组合成连贯的句子,LLM可以更语义地确定两个给定实体之间的关系标签,解决了提示方法中关系标签的语义模糊问题。下图展示了Auto-CoT和CoT-ER之间的差异。

few-shot关系提取旨在基于有限数量的注释数据预测给定实例中指示的头部和尾部实体之间的语义关系。FewRel是Han等人引入的一个大规模数据集,是第一个在关系提取中探索few-shot学习的数据集。许多方法在缺乏训练数据的情况下,结合外部知识来提高性能。FSRE的另一条研究路线仅依赖于输入文本和提供的关系描述信息,而不包含外部知识。以前的大多数方法通常采用复杂的神经网络设计或引入外部知识,这在现实场景中可能是劳动密集型的。

GPT-3在上下文学习(In-context Learning, ICL)中已成为NLP中的一种新范式,与微调模型相比,它在各种任务中表现出了竞争力。通过将相关文本信息纳入提示中,将先验知识引入LLM要容易得多。此外,ICL是一种无需训练的方法,直接提示LLM,这意味着它是一种现成的方法,只需在提示中进行一些演示即可轻松应用于各种任务。

最近,大多数研究人员专注于ICL的示例设计,以提高NLP任务的性能,并逐渐发展为两类。演示设计的第一类试图通过从数据集中选择实例并对所选演示实例进行排序来寻求提示中的少量示例的最佳安排。另一类示例设计旨在发现一种有效的提示方法,以释放LLM的潜力。此外,有研究人员通过在给出答案之前手动添加中间推理步骤,揭示了LLM的推理能力,这被称为思维链。

尽管CoT提示方法在许多NLP任务中取得了很好的结果,但它仍然缺乏对RE的相关探索。因此,本文提出了一种新的CoT提示法CoT-ER来填补这一空白。

本文提出的CoT-ER的概述如下图所示,它由3个组件组成:

由于LLM具有上下文学习的能力,本文提出了一种人工指导的方法来指导LLM使用最少的注释数据执行准确的推理。

CoT-ER设计:为了充分利用LLM中存储的知识并促进逐步推理,引入了一种新的具有概念级知识和明确证据的三步推理框架。在步骤1中,LLM推断与头部实体相关的概念级知识,而步骤2对尾部实体进行同样的操作。通过这些步骤,LLM可以很容易地排除概念实体不正确的选项。步骤3:为了找出在给定的上下文中哪一个关系标签最适合这对实体,明确强调相关的文本跨度作为证据,然后构建一个连贯的表达式,将两个实体和关系标签结合在一起。为了进一步说明三步推理过程,下图中的几个shot示例演示了该推理过程的模板。

CoT-ER生成:为数据集中的每个关系类注释了一个CoT-ER推理示例作为种子示例。然后,设计了一个适当的提示,使用注释的示例作为few-shot示例演示,以指导LLM为每个支持实例生成类似的推理步骤。每个具有CoT-ER推理步骤的支持实例都将附加到候选集合中。上图显示了为人工指导推理模块设计的类似提示。

有研究表明,基于相似性选择few-shot示例会大大改善上下文学习。由于LLM的输入tokens有限,在给定N路K-Shot任务的情况下,单个提示可能无法容纳所有支持实例。在本文中,遵循基于相似性的方法来选择few-shot示例。为了获得特定关系的相似性表示,首先通过合并实体级信息,将输入文本重构为“上下文:[文本]给定上下文,“[头部实体]”和“[尾部实体]”之间的关系是什么?”。然后,利用GPT系列模型“text-embedding-ad-002”作为编码器来获得语义嵌入。随后,计算候选集合中的每个实例与查询实例之间的欧几里得距离。最后,基于候选集合中的M个实例到查询实例的较低欧几里得距离,选择它们作为few-shot示例。

为了创建最终提示,只需将一条任务指令、few-shot示例和一个针对查询实例定制的问题连接起来,使用具有CoT-ER推理的支持实例作为few-shot示例。值得注意的是,LLM在一般情况下有很强的错误输出NULL的倾向。本文中强制LLM选择所提供的关系标签之一,因为没有考虑FewRel数据集中的“无上述”场景示例。

有两个标准的few-shot关系提取数据集:FewRel 1.0和FewRel 2.0。

在现实场景中,直接使用固定的、手动注释的示例执行RE任务是合理的,作为每个关系标签的少量镜头演示。为此,通过从预先确定的人工注释CoT-ER数据集中选择few-shot示例来评估性能,该数据集表示为手动CoT-ER。在此设置中,few-shot示例独立于支持集,这意味着LLM将使用较少的注释数据执行RE任务。相反,Auto-CoT-ER利用自动生成的CoT-ER推理过程作为人工指导推理模块中描述的支持集的few-shot示例。

本文考虑FSRE任务的两类方法。

100% 训练数据的方法:MTB、CP、HCPR、FAEA、GTPN、GM_GEN和KEFDA。通常,这些方法在FewRel 1.0训练集上训练模型,并在FewRel 1.0、2.0验证和测试集上评估其性能。

0% 训练数据的方法:应用Vanilla-ICL和Auto-CoT作为基线提示格式化方法。这些方法利用一些示例作为演示,并提示LLM执行NLP任务。Vanilla-ICL设计了一个直接结合文本和关系标签的模板,例如“上下文:[文本],给定上下文,[头部实体]和[尾部实体]之间的关系就是[关系标签]”。Auto-CoT通过自动生成的推理步骤扩展了Vanilla-ICL。

在整个实验中,注意到是否要求LLM在最后的回答阶段进行推理可能会导致不一致的结果,如下表所示。此外,利用预先训练的BERT基本模型6和GPT系列模型text-embedding-ada-002作为编码器,直接获得输入文本的表示。对于每个N路K-shot任务,我们通过对属于该类的K instance进行平均来获得每个类的原型。然后,将查询实例的预测标签分配给其原型与查询实例具有最接近欧几里得距离的类。将这两种方法称为Bert-proto和GPT-proto。

合并实体信息是否对CoT-ER有显著好处?本文进行了消融实验,以证明三步推理过程的必要性。在这个实验中,去掉了第一步和第二步,并将性能与Auto-CoT reasoning进行了比较。出于公平考虑,使用Auto-CoT-ER实现了这个实验,它还采用了LLM自动生成的推理过程。由于最大输入和输出token的限制,将消融实验的few-shot演示中的实例数量设置为13。结果如下图所示。

结果表明:

本文对提出的CoT-ER进行了两项稳定性实验。

观察到CoT-ER和Vanilla-ICL都可以受益于更多的few-shot示例,然而,随着示例数量的增加,Vanilla-ICL的性能迅速下降。CoT-ER可以有效地利用来自提供实例的信息,即使实例数量减少,也能保持强大的性能。这表明当few-shot实例的数量发生变化时,CoT-ER表现出比Vanilla-ICL更大的稳定性。

下表展示了CoT-ER和Auto-CoT方法的案例分析。

本文探索了LLM上下文内学习在few-shot关系提取方面的潜力。为了提高低质量自动生成推理过程所带来的总体性能,引入了CoT-ER,这是一种专门用于few-shot关系提取的提示方法。核心思想是促使LLM使用存储在其预训练阶段的特定任务和概念级别的知识来生成证据。LLM将在RE任务中使用这些证据,并促进推理过程。此外,设计了一种标签描述技术,通过将实体和关系标签集成到一个连贯的表达式中。该技术解决了关系标签的语义歧义,这是在上下文学习中使用关系提取时遇到的常见挑战。FewRel 1.0和FewRel 2.0的实验结果优于所有无训练基线,证明了本文提出的方法的有效性。此外,实现与最先进的完全监督方法相当的结果表明,上下文学习范式有望成为few-shot关系提取任务的新解决方案。

尽管CoT-ER在FewRel 1.0和FewRel 2.0上取得了不错的结果,但仍有未来改进的潜力。由于最大长度的限制,本文提出的方法在处理较大的数据集时并没有充分利用所有实例。尽管采用了基于相似性的KNN检索来为few-shot演示选择优越的实例,结果发现,与其他在有大量候选集可用时表现良好的方法相比,它在few-shot设置中并不有效。由于通过GPT-3的API使用合理所需ICL的成本很高,本文尚未在具有更长最大输入token和更大规模的高级LLM上评估CoT-ER。有限的预算也限制了种子示例构建的优化。可以通过更具信息性和适当的设计来提高性能。

这篇论文刚撤稿了,期待新的版本:

An error example is in Table 14 on Page 18. Need to carefully correct and evaluate the error

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值