大模型事件抽取学习——论文学习笔记《ULTRA: Unleash LLMs’ Potential for Event Argument Extraction......》

最新推荐文章于 2025-03-27 20:53:19 发布

读不懂论文的研究僧

最新推荐文章于 2025-03-27 20:53:19 发布

阅读量1.1k

点赞数 23

文章标签：人工智能 chatgpt 自然语言处理算法论文阅读

本文链接：https://blog.csdn.net/weixin_53751318/article/details/144140862

版权

本篇博客介绍一篇发表在2024 ACL finding上的文章：《ULTRA: Unleash LLMs’ Potential for Event Argument Extraction through Hierarchical Modeling and Pair-wise Refinement》

        方向：大模型事件抽取

        本篇博客为个人阅读论文的总结与笔记，在这里进行简单的分享

        论文链接：https://arxiv.org/abs/2401.13218

摘要

话语中事件的结构提取至关重要，因为它有助于更深入地理解交流模式和行为趋势。事件参数提取（EAE）是以事件为中心的理解的核心，它的任务是为给定事件识别特定于角色的文本范围（即参数）。文档级EAE （DocEAE）侧重于分散在整个文档中的参数。在这项工作中，我们探索了开源大型语言模型（LLMs）的功能，即Flan-UL2，用于DocEAE任务。为此，我们提出了ULTRA，这是一个层次结构框架，可以更经济有效地提取事件参数——该方法只需要50个注释，并且不需要访问成本高昂的API端点。此外，它还缓解了LLMs固有的位置偏见问题。ULTRA首先按顺序读取文档的文本块以生成候选参数集，在此基础上，ULTRA通过自细化学习删除不相关的候选参数。我们进一步引入LEAFER来解决LLMs在定位参数范围的确切边界时所面临的挑战。当通过精确匹配（EM）度量进行评估时，ULTRA的性能比强基线（包括强监督模型和ChatGPT）高出9.8%。

一、简介

事件提取（Event extraction， EE）是一项长期存在且突出的信息提取（information extraction， IE）任务，旨在从非结构化文本中提取由核心信息元素（例如，“谁”对“谁”做了“什么”、“何时”、“何地”和“为什么”）组成的事件结构。以事件为中心的理解非常重要，不仅因为其固有的优点，而且还因为它作为下游任务，如综述，推荐系统，以及新闻叙事理解。事件参数提取（EAE）是事件提取（EE）中一个关键且具有挑战性的步骤，它是为给定事件识别特定角色的文本范围（即参数）的任务。

现有的研究主要集中在句子级事件参数提取在流行的ACE数据集上。然而，在新闻领域，事件通常是在文档级别描述的，而论点通常分散在整篇文章中。因此，迫切需要系统地研究文档级EAE （DocEAE）任务，因为句子级EAE系统无法适应DocEAE任务固有的长距离依赖、跨句推理和多答案问题。传统的监督方法必须消耗大规模的注释才能脱颖而出，而最先进的（SOTA） EAE模型需要手动设计每种参数类型的模板。这些方法不仅成本高昂，而且无法推广，因为它们无法处理新出现的事件最近，大型语言模型（LLMs）在NLP任务中的应用出现了显著的激增，特别是封闭模型，如PaLM （Chowdhery等人，2022）、Claude （Bai等人，2022）和GPT-4 （OpenAI, 2023）。与我们最相关的工作是Li等人（2023）；然而，Han等人（2023）仅通过评估ChatGPT解决IE任务的能力进行了初步分析。同时，之前还没有研究试图利用LLMs来解决DocEAE任务。在我们的初步调查中，我们确定了使用封闭式LLMs时出现的至少三个挑战：

1)击中端点会产生大量成本，并在推理期间带来可扩展性挑战；

2)为了保证性能，需要进行不良的提示黑客攻击；

3)考虑到新闻的性质，信息在内容中传播，LLMs遭受位置偏见问题。

为此，我们提出了一个易于使用的框架，通过分层建模和成对细化，释放LLMs的事件参数提取潜力，称为ULTRA。基于Flan-UL2的ULTRA ，顺序读取新闻文章的文本块以生成候选参数集。ULTRA然后通过两两比较的自我改进来学习放弃不相关的候选对象。此外，还实现了一个名为“从错误中学习”的LEAFER模块，以改进参数范围的边界识别。最后，我们用文档级提取器增强ULTRA，以捕获需要对整篇文章进行推理的参数。

我们在DocEE基准上的结果表明，ULTRA在精确匹配（EM）和头名词短语匹配（HM）指标方面比强基线（包括以前最先进的模型和ChatGPT）至少高出9.8%和7.5%，同时大大降低了货币成本。现有的方法只是为了提高精度，而我们的ULTRA也显著提高了召回率(39.4 EM vs 25.2)。除了更好的性能和更低的成本外，ULTRA还不需要专门的提示，减轻了位置偏差问题，并具有更强的通用性。

二、相关工作

2.1 事件参数提取（EAE）

现有的工作主要集中在句子级事件理解任务上。大多数方法可以归为以下三种方法之一：序列标记，通过强加全局特征进一步约束推理；问答，其中包含关于论证角色的本体知识和结构化提取的生成模型。特别是，DEGREE将EAE重新表述为基于模板的条件生成任务，并在各种基准测试中取得了令人印象深刻的性能。然而，它需要大量的注释工作，每种参数类型都需要一个模板，因此不能泛化或扩展。在这项工作中，我们正在寻求在不需要特定参数模板的情况下提高EAE性能，而是使用通用指令（表A3）。

表A3：为ULTRA的每个阶段设计的说明。文档级提取器用于ULTRA的集成模式，并作为Flan-UL2基线。对齐指令改编自NIv212中的任务179（参与者抽取）

最近，人们对文档级EAE （DocEAE）越来越感兴趣，因为事件通常在文档级描述，而论点通常分散在多个句子中。例如，RAMS 和MEE 都将“文档”定义为5个句子的片段。相比之下，WikiEvents 和DocEE （提供完整的文章，并专注于主要事件的论点提取。在这项工作中，我们使用DocEE作为基准，因为它在新闻领域中具有广泛的事件类型覆盖范围。在方法方面，Du和Cardie （2020a）和Tong等人（2022）分别通过扩展句子级标注和问答方法来处理DocEAE。Li等人（2021b）将DocEAE定义为基于模板的条件生成，与句子级生成方法相同。不幸的是，前面提到的方法都没有解决论点分散的问题；相反，他们把整篇文章当作一个延长的句子来对待。Zheng等人（2019）是第一个通过将DocEAE建模为以实体为中心的图来解决这个问题的工作，该图通过“跟踪器”模块进一步增强，以捕获参数和事件之间的相互依赖性。尽管如此，由于“跟踪器”在处理早期提取时不考虑后期提取结果的局限性，它是不够的。相反，我们的ULTRA通过实现自优化模块弥合了差距，该模块基于成对比较和类似于双向跟踪器的功能。

2.2 使用大型语言模型的IE

过去几年见证了高度并行化、可扩展的transformer架构的兴起，为一系列强大的语言模型铺平了道路，这些模型极大地重塑了NLP的格局。最近的研究表明，扩大模型规模可以在各种任务上产生更令人印象深刻的能力，并释放出小型模型中不存在的突发能力。这些通常超过一千亿个参数的大型语言模型（LLMs）是典型的封闭系统（例如，没有可用的开放检查点）。值得注意的例子包括PaLM 、Claude 和GPT-4 。开发了许多方法来增强LLMs的推理和解决问题的能力，例如思维链，自我纠正和外部工具（例如Python解释器）增强等。

ChatGPT是最新兴的LLMs之一，它使用来自人类反馈的强化学习，引发了一场变革浪潮。与我们的研究最相关的是利用ChatGPT进行信息提取任务(Li et al ., 2023；Han等人，2023)，包括命名实体识别（Xie等人，2023）、时间关系提取（Yuan等人，2023）、事件检测（Sharif等人，2023）和事件参数提取（Wei等人，2023）。这些论文的主要焦点要么是对ChatGPT的性能进行基准测试，其结果不如专门监督的IE系统，或者管理新的基准数据集。相比之下，我们提出的ULTRA框架优于强大的基线，包括以前最先进的（SOTA）模型，利用我们设计的LEAFER和自我反射模块的有效性。此外，据我们所知，我们是第一个利用LLMs来完成DocEAE任务的。

三、方法

图1描述了ULTRA的总体框架。将一篇新闻文章d作为输入，ULTRA首先顺序读取文章d的文本块以生成一个候选参数集{a}（§3.1），在此基础上，ULTRA通过自细化学习删除不相关的候选参数集并返回一个最终参数集{a f}（§3.3）。引入了一个新的模块LEAFER，从错误中学习，以解决LLMs无法定位参数范围的确切边界的问题（第3.2节）。ULTRA+是一种变体，通过文档级提取器模型进行提取需要整篇文章话语分析的信息片段（例如，提取“为什么”类型的参数）。

图1：在ULTRA中，局部提取器（第1层）首先通过顺序地一次理解一个块来生成候选参数集，在此基础上通过两两比较执行自细化（第2层），以过滤掉不太相关的候选参数。通过LEAFER模块对初始候选集中的预测边界进行校正。最后，集成变体ULTRA+合并了本地和文档级提取。在这里，我们使用与表1相同的例子，“今年3月至5月之间”是正确的答案。

表1：来自DocEE的示例，以及我们的ULTRA和选择基线模型的输出。这种“Date”参数类型的基本事实跨度是在今年的3月到5月之间。ULTRA能够在LEAFER模块的帮助下进行自我校正，并删除不太相关的候选答案，如“July”。相比之下，文档级Flan-UL2和ChatGPT都无法提取句子，因为句子[0]包含一个强干扰词“Wed 15 Sep 2021”。为简洁起见，我们只展示这篇示例文章的一部分。像[0]这样的数字是为了说明目的，不是模型输入的一部分

综上所述，我们产生了ULTRA的两个版本：ULTRA-base和ULTRA-long，它们分别在layer-1中消耗5句和15句的窗口。值得注意的是，我们没有进行代价高昂的提示黑客攻击，而是采用了NIv2中的现有指令，并将其定制为我们的用例，称为对齐指令。我们提供了在表A3中使用的任务指令（{I}）。

3.1 Layer-1: 局部理解

给定文档d，我们首先将d划分为多个k个句子通道窗口，其步长为⌊k/2⌋，表示为{w1， w2，·，wl}。我们采用固定窗口大小的方法，而不是固定序列长度的方法，它可能会在中间剪掉一个句子，以允许每个局部提取器完整地理解每个段落窗口。用Flan-UL2实例化，本地提取器将任务指令(I)、通道窗口（wi）和用自然语言（qj）编写的问题（例如，“海啸”事件的“日期”是什么时候？）的连接作为输入。我们以零采样的方式提示局部提取器，并明确指示它在输入通道不包含任何相关答案时生成N/A。重复数据删除后，我们最终得到一个候选对象每个问题qj的参数set {a}j。

3.2 LEAFER模块

LLMs被认为具有提取相关信息的诀窍，但我们注意到LLMs仍然难以确定论证范围的确切边界。具体来说，如图1所示，对于“干旱”事件的“日期”是什么时候”这个问题，局部提取（{a}）包含明显合理的答案“三月和五月”。，这与“今年3月至5月”的基本答案在句法上相似，但在语义上不同。这种错误超出了数字推理（例如，时间和计数类型的参数），并且在其他参数类型（例如位置）中也很明显。一个说明性的案例涉及LLMs生成“Perth”，这是正确答案“Perth’s east”的一部分。为此，我们引入了一个新的模块LEAFER （LEArning From ERrors（从错误中学习）的缩写）来缓解这个问题。LEAFER模块是基于Flan-UL2产生的误差进行训练的小型LM。经过训练的LEAFER被用来产生一个判断，即明确告知什么是错的，为什么是错的。深刻的判断使ULTRA能够纠正{a}中候选参数的边界并返回{a '}。

为了支持LEAFER的训练，我们使用50篇带注释文章的少量训练集构建了LEAFER库。具体来说，我们提示相同的Flan-UL2本地提取器为每个（k-句子段落，问题）输入提取参数，使用§3.1中概述的方法进行配对。对于每个输入对，我们将机器提取的参数范围与相应的基本真值答案进行匹配，以自动生成判断。表A4列出了详细的判断模板。随后，LEAFER在这个构建的LEAFER Bank上进行微调，训练它在给定机器提取的答案以及文章和问题的情况下生成判断。在本研究中，我们用Flan-T5-large实例化了LEAFER模块。

3.3 Layer-2：自我细化

虽然LEAFER解决了语义漂移和不精确的边界问题，但ULTRA由于基于窗口的局部提取器而出现了过度生成问题。受到最近成功利用LLMs作为判断的激励，我们提出了一个自细化模块，该模块允许ULTRA自省地反映候选参数（{a '}），并通过两两排序减少不可能的候选参数。LLMs作为裁判通常有两种形式：单选评分和两两比较。正如郑等人的研究（2023），并且在我们的初步研究中观察到，我们发现单一答案评分不能作为有效的改进判断，因为：

1)绝对分数极度膨胀，相当大一部分分数在0到1的范围内接近1；

2)单一答案评分无法捕捉到特定对之间的细微差异。

因此，在第2层，我们通过两两比较来利用排名获得最终参数集{a f}，首先提示Flan-UL2在候选对中选择一个更好的答案，然后通过汇总成对比较分数对所有候选进行排名，最后过滤掉低位置的候选。为了支持动态过滤，我们决定|{a f}|如下所示：

两两比较产生了一个重要的分数，并捕获了细微的差异，但仍然被位置偏见所困以及由于两两比较中的二次增长而缺乏可扩展性。为了缓解这两个问题，我们分别采用校准和修剪。

校准：在我们的背景下，位置偏差描述了一个模型倾向于给列表中特定位置的选项分配更高的分数，这在ChatGPT和GPT-4中已经被证明存在。问题表现为Flan-UL2偏向于先前显示的答案。利用Zhao等人（2021）提出的上下文校准技术，如eq.(2)所示，我们校准一对之间每个选项的原始概率，以显示真实的概率，即P（ai |d）。

式中，P（ai |·）表示给定一定输入时，参数ai被首选的概率，d和I表示文章和任务指令（指令参见表A3）。根据Zhao等人（2021），g（x, y）是一个校准函数，可以实例化为相加函数g(x, y) = x−y，或乘法函数g(x, y) = x y。使用我们设计的比较指令(I)，我们计算先验概率P(ai |I；θ)， {article}字段留空，计算原始概率P(ai |d， I；θ)。通过校正函数g(x, y)，我们设法减轻了由输入模板I和LLMs固有偏差θ引起的位置偏差。

修剪：为了解决比较次数呈二次增长的可伸缩性问题，我们预先修剪候选集合以缩小其大小。具体来说，我们设计了一种符合新闻报道基本原则的策略，其中记者在新闻报道开始时优先考虑关键信息的呈现，这种做法通常被称为“倒金字塔”结构。也就是说，我们只考虑最多5个最早的候选论点，其中一个论点的早期性是由它在新闻文章中的第一次出现决定的。在计算效率方面，我们的剪枝策略经验地将后续成对计算的次数减少了一半。此外，我们发现修剪本身可以帮助提高精度，即使不进行两两比较。这也说明了我们所设计的修剪策略的有效性。

3.4 集成: ULTRA+

集成技术持续提高了各种NLP任务的性能。LLMs-Blender试图在输出空间上集成各种LLMs (Jiang et al ., 2023)，这需要大量的计算资源。相反，我们建议采用一种更简单、更有效的方法：合并ULTRA和文档级参数提取器的输出，在提取参数时读取全文和问题。通过这种方式，我们设法结合了本地（高召回率）和文档级（高精度）提取的优点。

类似于Labrak et al (2023)；Han等人（2023），在提供上下文示例时，我们也观察到开发集的边界改进。为了减少推理时间开销，我们以零采样的方式提示文档级提取器。

四、实验

数据集和评估指标我们在DocEE数据集上进行了实验，该数据集包含27,485篇新闻文章，分为59种事件类型和356种参数类型。我们在实验中使用了他们的跨域设置，因为它只包含一个最小标注的目标训练集（即50篇文章），可以最好地评估各种模型在野外的泛化性。具体来说，它的测试集包含1,955篇新闻文章，涵盖10种不同的事件类型，每篇文章都用~ 6.5个参数进行注释。为了公平比较，我们使用与原始DocEAE数据集相同的数据分割和处理文本。

在评估指标方面，我们遵循文档级事件参数提取的文献，并采用精确匹配（EM）和头名词短语匹配（HM）作为评估指标。EM评估提取的参数是否与参考完全匹配，而HM是一个宽松的度量标准，关注提取和参考之间名词短语的头词是否有重叠。

在本文中，我们将ULTRA与三个模型族进行比较，以全面评估提取性能和货币。

第一个模型族是Supervised ML，其特点是使用人类注释作为监督信号来训练小规模LMs，由EEQA （Du and Cardie, 2020b）和Ontology QA （Tong et al, 2022）组成。本体QA是对EEQA的扩展，在此基础上增加了论证本体知识，实现了DocEAE的SOTA性能。

其次，考虑到ChatGPT的受欢迎程度和令人印象深刻的功能，我们将其与使用不同提示技术的ChatGPT进行比较。具体来说，Li等人（2023）提示ChatGPT以字典格式生成输出，该格式通过一次提取所有参数类型的范围来同时包含答案和基本原理。我们进一步修改原始提示，以指示ChatGPT每次仅为一个参数类型提取span（单问题变体）。Wang等人（2023b）建议在总结一篇文章之前先生成一个思路链。为了两全面性，我们通过用Li等人（2023）使用的参数提取器替换Wang等人（2023b）中的摘要器来构建CoT-ChatGPT变体。

最后一个基线套件涉及使用不同指令提示文档级提取器，利用Flan-UL2作为其主干进行公平比较。具体地说，它一次读取整篇文章，一次只提取一个参数类型的span。这个基线套件有三个目的：测试Flan-UL2对从零开始设计的不同自定义指令的敏感性；阐明对齐指令的有效性；并在提示Flan-UL2时检查少量示例的有用性。

五、结果与分析

如表2所示，我们提出的ULTRA实现了最好的F1分数，特别是与两个强大的基线家族（supervised ML和Closed LLMs）相比，大大减少了训练和推理时间的金钱成本。值得注意的是，与文献中表现最好的模型相比，ULTRA显著提高了56%的EM召回率（39.4比25.2），考虑到ULTRA最多只能暴露于每种事件类型的5-shots，这表明了强大的泛化性。

表2：文档级事件参数提取任务在DocEE数据集上的结果，以及EM和HM分数按精度(P)、召回率(R)和F1的细分。我们还根据模型类别报告了估计的货币成本，分为训练成本和推理成本。最好的结果是大胆的。强调了文献中最好的F1。ULTRA以较低的成本实现了最佳的F1性能，并且比任何基线恢复了更多的真阳性。基于ULTRA部分的其他结果可在表A2中找到。*结果直接取自Tong等人（2022）。**结果报告为5个自定义指令的平均性能，其中单个性能包含在表A1中。***除特别说明外，实验均采用零样本方式进行。

在DocEAE中使用ChatGPT，尽管常见的缺陷是输出看似连贯的断言，但实际上是错误的，称为幻觉；我们认识到另一个问题，这似乎在NLP社区中研究较少，即ChatGPT提取的答案跨度过于冗长。这解释了为什么ChatGPT在文献中获得了最好的HM分数，因为较长的世代更有可能包含相关信息，而EM由于冗长的性质而较低。

除了模型的提取性能外，表2还给出了每个模型族的成本估计。我们简要介绍估算货币成本时使用的标准。培训费用主要与文件注释有关关于推理，我们考虑在到达API端点时产生的费用根据Tong等人（2022）的说法，EEQA和Ontology QA都是在22K篇文章上进行培训的，每篇花费0.9美元，总计2万美元。根据ChatGPT定价，基本成本为0.004/1K token。根据输入模式的不同，处理每篇文章然后生成答案平均将消耗5K到50K个token。测试集包含2K个示例，因此总成本约为40至400美元。对于Flan-UL2基线和我们的ULTRA，每个只需要最多50个注释文章，分别用于检索少量示例和训练LEAFER模块。值得注意的是，ULTRA能够在推理中实现经济有效的扩展，而ChatGPT可能面临预算限制。

窗口大小的进一步研究：尽管ULTRA-base和ULTRA-long的EM F1得分几乎相同，但它们表现出不同的提取特性，其中ULTRA-base的召回率最高，而ULTRA-long的召回率更平衡。在本小节中，我们专门研究ULTRA的layer -1变体的提取特性。图2显示了随窗口大小变化的性能趋势。我们注意到，随着窗口大小的增加，准确率稳步上升，而召回率持续下降。我们将这种趋势归因于这样一个事实，即更大的窗口大小导致输入ULTRA的文本块更少。值得一提的是，在窗口大小为15之后，F1的整体性能趋于平稳。这一观察结果强调了ULTRA的一个关键方面：它可以灵活地适应各种提取标准。例如，当目标是获取最相关的信息时，选择较小的窗口大小似乎是一个有利的选择。相反，如果精确度是产品的核心，或者目标受众是易受错误信息影响的弱势群体，那么选择更大的窗口是明智的。

图2：窗口大小对只有第1层的ULTRA变体性能的影响。结果基于开发集。随着窗口大小的增加，由于输入ULTRA的数据块减少，精度提高而召回率降低。窗口大小为15后，F1性能趋于平稳。

六、结论

在这项研究中，我们提出了ULTRA，一个基于开源LLMs - Flan-UL2的经济有效的事件参数提取框架。具体地说，ULTRA从一篇文章中读取一系列文本块，这些文本块的输出通过删除不相关的答案进行自细化。通过最少的注释工作，实现了一个LEAFER模块来改进参数跨越边界的识别。我们的实验结果表明，与监督ML模型和封闭LLMs模型相比，ULTRA具有优越性。进一步的分析显示了ULTRA的可定制性，以满足不同的提取标准。