【论文阅读笔记|ICASSP 2022】Generating Disentangled Arguments with Prompts: A Simple Event Extraction

论文题目: Generating Disentangled Arguments with Prompts: A Simple Event Extraction Framework that Works

论文来源:ICASSP 2022

论文链接:https://arxiv.org/pdf/2110.04525.pdf

代码链接:https://github.com/RingBDStack/GDAP

0 摘要

事件抽取是连接文本和事件信号之间的桥梁。基于触发词-论元依赖的假设,现有的方法通过专家设计的模板或复杂的解码约束取得了最先进的性能。在本文中,我们首次将基于提示学习策略引入到事件抽取领域,从而实现了在输入端和输出端对标签语义的自动利用。为了验证所提出的生成方法的有效性,我们对11个不同的基线进行了广泛的实验。实证结果表明,我们的简单架构比任何其他生成架构在论元抽取阶段的F1值都更高,甚至比需要模板工程的算法具有竞争力。触发词和论元抽取的召回率是创造了一个新的记录。

1 引言

事件抽取是从纯文本中提取结构化的事件信息,是一项关键但具有挑战性的信息抽取任务。一个事件通常由一个模式来定义,该模式包括事件类型和一组相应的角色。一般来说,要填充这个模式,事件提取系统需要找到提示一个事件的触发词,然后找到发挥不同角色的论元。图1展示了一个例子,有两个事件。对于'CONVICT'事件,由'convicted'触发,提取论元'Toefting' 和'Copenhagen',作为'defendant'和'plance'的角色。至于对于另一个事件'ATTACK','assaulting'作为一个触发词,论元'Toefting'、'Copenhagen'和'restaurant works'分别扮演'attacker','palce'和'target/victim'角色。

早期的研究将事件抽取定义为一个标记级的分类问题,即直接定位文本中的触发词和论元,并识别它们的类别。许多这些工作只是采用了基于神经网络的序列标注技术。 然而,这些方法只捕获输入序列的内部模式,而没有使用标签语义的知识。基于QA的方法,通过准备好的模板,首先通过生成分别针对事件类型、触发词和论元的问题来增强训练语料库。接下来,模型学习在原始句子中定位跨度作为答案,从而明确地引入标签知识。然而,这些方法的性能在很大程度上取决于问题模板的质量,而设计它们需要高水平的专业知识和大量的人力劳动。

最近,新一轮的算法不再遵循分类范式,而是将事件抽取作为一项生成任务。TANL是一个由预训练过的T5提供动力的管道,它学习按顺序将纯文本输入“translate”为标记事件触发词和论元的序列。另一个基于T5的生成模型,即Text2Event,而尝试端到端方式,其中输出具有复杂的基于树的结构。由于大规模的预训练语言模型的成功,这种生成方法可以将模板的手工工程减少到最小限度,因此优于上述基于QA的方法。尽管如此,它们仍然表现出限制工业上应用程序的瓶颈。(1)他们专注于在解码过程中合并标签语义(作为约束),但未能充分利用编码端的这些信号(例如,事件类型和触发词)。(2)类似于基于分类的对应模型,生成模型假设触发词和论元抽取之间存在依赖关系,从而连续或联合实现这两个模块。然而,这个长期以来的假设受到了我们的观察的挑战,例如,在一个简单的输入句子“We put the Shah of Iran in power”中,触发词“put”对从语法或语义上提取“Shah”和“Iran”几乎没有帮助。更糟糕的是,最近的研究结果显示了重叠的触发词和论元的存在,这甚至会导致精度的下降。(3)对于TANL,生成的token中有相当一部分是与任务无关的;对于文本事件,输出结构可能太复杂,无法扩展。

为了缓解上述问题,在本文中,我们提出了一个新的框架,generates disentangled arguments with prompts(GDAP)。顾名思义,GDAP在算法上实现了三个显著的改进

  1. 为了在编码输入时通过各种标签语义有效地注入知识,我们首次将基于提示的学习引入到事件抽取领域
  2. 与所有现有的方法不同,GDAP将触发词和论元的抽取分离开来。触发词和论元的提取,大大提高了计算的并行性,并自然地解决了重叠问题。
  3. 由于体系结构和输出格式都大大简化,GDAP易于实现和扩展。为了实证验证这些改进的有效性,我们在标准的ACE 2005基准上进行了广泛的实验,其中涉及11个强基线(基于分类和生成的)。在论元提取任务中,GDAP在所有生成方法中产生了最好的F1值,这甚至可以与依赖于手工设计的模板的最先进的基线相竞争。此外,GDAP在论元和触发词提取中的总体召回率最高,表明在商业场景中有应用前景。

2 方法

如图2所示,GDAP具有三个功能模块,即事件类型检测模块、触发词提取模块、论元提取模块。在实践中,模式中事件类型的高度多样性将导致大量的潜在触发词和论元选择,这使得全面遍历的成本太高。因此,所有输入的句子将首先通过事件类型检测模块,以减少计算开销。根据预测的事件类型,GDAP将独立且同时处理触发词和论元提取。正如在1中所讨论的,据我们所知,这是第一次尝试将这种disentangled design应用到事件抽取中。为简单起见,所有这三个模块都拥有相似的架构,同时在没有论元共享的情况下进行独立训练,即基于预训练过的语言模型的编码器-解码器网络。详情请见后续段落。

事件类型检测。该模块学习编码一个原始句子,并使用\left ( \left ( ET_{1} \right ) \left ( ET_{2} \right ) \ldots \left ( ET_{i} \right )\ldots \left ( ET_{x} \right ) \right )来解码x事件类型,其中\left ( ET_{i} \right )表示第i个事件类型,用'( )'括起来,例如,图1中句子的输出是'((CONVICT)(ATTACK)'。由于这种特殊输出格式的限制,传统的文本生成的解码算法(如贪婪搜索和波束搜索),纯粹基于预测概率来逐步选择token,在这里不能保证结构的有效性。受Text2Event的启发,我们设计了一个有限状态机,该状态的token产生状态(是解码“(“,”)”还是事件类型)由已生成的“(”和“)”的计数决定。此外,在解码事件类型时,子词词汇表可能会形成不在候选池中的标记,例如,“tconttvic”是使用子词“CON”、“VIC”和“T”的错误生成。因此,我们转向基于tire的约束解码算法,该算法通过确保搜索只在预先构建的子词树中执行,从而保证了token的有效性。

触发词抽取。我们将介绍基于提示的学习方法。输入由一个句子Sent、一个已经检测到的事件类型ET_{i}和一个特殊的分隔token(记为\mathcal{T}_{sep};在实际操作中,我们将其实现为“</s>”,见3.1)组成,如ET_{i}\mathcal{T}_{sep}Sent虽然以前的方法在解码过程中无法集成标签语义,或者只能通过专家设计的模板导入这些信息,但我们发现,非常简单的提示可以有效地指示GDAP以完全数据驱动的方式提取与事件类型标签语义相关的触发词。具体地说,如果Sent包含与ET_{i}对应的y触发器,则预期输出为 

 从Trg1到Trgy都来自于发送的词汇。由于这里的格式类似于事件类型检测模块,在解码阶段,我们采用了相同的机制,即上述的有限状态机和基于tire的约束解码算法

论元抽取。与触发词抽取模块一样,我们的论元提取模块也会关注提示符和输入句子的组合:

其中,RTij是与ETi相关的第j个角色类型,可以通过查询已建立的事件方案来确定,例如,事件“CONVICT”的角色类型是“defendant”和“place”(见1)。对于解码器,如果获得了论元z,则论元提取模块输出与触发词提取模块格式相似的序列,其格式为其中Arg1到Argz也来自于发送的词汇。

我们认为,除了可以吸收有价值的标签语义的增强型编码器外,GDAP的解码器也取得了超越现有的生成式事件抽取算法的突出进步。一方面,尽管发送中的大量单词分区与事件提取无关,但它们仍然包含在TANL中。相比之下,GDAP的输出只包含提取的目标(触发词或论元),没有冗余,显著提高了数据效率。另一方面,Text2Event的基于树的解码格式非常复杂,因此难以缩放,而GDAP的生成格式是一个简单的列表样式序列,因此可以很容易地扩展到其他任务。我们把探索这个方向作为未来重要的重要工作。

负采样在训练触发词和论元抽取模块时,我们引入了一个简单而有效的负采样机制,使我们的模型更容易容错。准确地说,对于每个发送的事件,我们随机选择N个没有出现的事件类型。当这些负样本出现在提示符中时,模型应该学习不提取触发词或论元;相反,它应该只生成一个空序列,即“(())”。值得注意的是,虽然增加N有助于提取的鲁棒性,但随着训练样本的数量增加大约N+的1倍,它会导致训练时间的显著增加。

3 实验

3.1.设置

数据集。ACE 2005基准测试中的英语分区是事件提取测试的实际标准。它有599个文档,由33种不同的事件类型进行了注释。我们采用了发布的流行分割,其中分别有17172、923和832句句子用于训练、验证和测试。我们还使用的脚本来执行预处理步骤。

基线。为了评估GDAP的事件抽取效果,我们考虑了11个baseline,包括

  1. 基于序列标记的方法:基于LSTM的dbRNN,基于RNN/GCN的JMEE,基于BiGRU的joint3EE,基于BERT的DYGIE++,基于ELMo的GAIL ;
  2. 基于QA的方法:以元素为中心的BERT_QA,multi-turn MQAEE,style-transfer-inspired RCEE ER;
  3. 生成方法: TANL 和Text2Event(详见回顾1)。

为了公平比较,所有基线(包括JMEE和RCEE ER)和我们的方法都没有使用golden entities,因为它们不太可能在现实环境中可用。

GDAP的配置。与生成基线(TANL和Text2Event)平行,GDAP采用预训练过的T5作为每个模块的主干,同时测试了基础(T5-B)和大型(T5-L)版本。为了与T5的原始实现保持一致,我们选择“</s>”作为分离token\mathcal{T}_{sep}。我们在训练期间编写提示时利用golden event type label。在所有实验中,为了成本与性能权衡,我们在触发词和论元提取中分别设置N为4和2。与Text2Event相同,我们将随机种子固定在421。学习速率设置为5e-5。我们使用label smoothing和AdamW,并尝试在{20,25,30}内的数量来优化验证分数。

评价指标。 按照过去的研究,我们报告了触发词和论元论元的精确度(P)、召回率(R)和F1值(F1)。只有当文本跨度和预测标签与ground-truth匹配时,输出才被标记为正确。在大多数工业场景中,论元是事件提取系统的最终产物,因此在本文中,我们更重视论元提取比触发词提取。

3.2.结果与分析

我们实验的主要结果列于表1中。 正如3.1节中提到的,我们首先关注论元提取测试,其中F1值衡量的是精确度和查全率的整体表现。在这个维度上,GDAP(T5-L)在所有生成方法中达到最高的。它的变体T5-B,虽然结果略低,但在采用相同规模的预训练语言模型时,仍然优于TANL和Text2Exent。当我们将这个范围扩展到各种类型的基线时,GDAP(T5-L)在13种基准测试方法中排名第二。尽管GDAP的性能低于最先进的RCEE ER,但我们认为后者是一种基于QA的算法,需要专家精心设计的模板来实现强先验,但GDAP是完全数据驱动的,最大限度地减少人力,无论如何,这更容易获得。

为了更详细地理解模型的行为,我们还报告了精确度和查全率,这两者在许多基线研究中都是缺失的。我们观察到GDAP(包括T5-B和T5-L版本)在论元提取中取得了最高的召回率。具体来说,GDAP(T5- L)超过了之前最先进的方法Text2Event(也是基于T5-L的生成模型),大幅度为6.4%。另一方面,我们发现GDAP的精度相对较弱,尽管它仍然高于基线,如Text2event(T5-B)。一个可能的原因是,如果检测到的事件类型是错误的,错误可能会传播到下游提取模块(参见2)。我们的目标是在即将进行的研究中更深入研究这一现象。

虽然触发词提取结果在实践中不那么重要,但我们仍然研究它们以获得进一步的见解。就F1分数而言,我们表明,虽然GDAP并不突出,但它所产生的性能仍然与更复杂的基线相当,甚至更好。在查全率和精度方面,GDAP(包括T5-B和T5-L)再次达到所有测试方法中查全率最好的水平,但未能获得较高的精度。一个有趣的发现是,GDAP的T5-B版本,其规模更小,在触发词提取的所有指标上都比T5-L版本表现得更好。将来我们会努力发现这些原因。

此外,我们还对论元提取进行了三次消融研究,结果见表2。首先,我们在推理过程中为RCEE ER和GDAP提供了gold事件类型的注释,作为外部信号。被测试模型的性能在各个方面都有所提高,这并不奇怪。然而,我们注意到,与Tab1中的F1分数比较相反。T5-B和T5-L版本的GDAP现在都优于RCEE ER。这证明了我们的上述假设,即最先进的RCEE ER确实从先验中获益很多,而GDAP可能由于事件类型检测中的错误而不那么精确

为了进一步演示事件类型错误如何影响模型性能,我们从测试集中删除了与任何事件都没有关联的句子。这种调整降低了GDAP被误导以预测错误的事件类型的机会。正如预期的那样,GDAP的精度立即跃升了约10%。最后,我们通过省略负采样步骤来降级我们提出的框架。 尽管对查全率的总体影响并不大,但我们看到T5-B和T5-L变异的精度都有所下降,这突出了我们的负抽样技术的有效性。请注意,删除提示并不构成可行的消融设置,因为模型不能再决定是否提取触发器或参数。

4.结论及未来的工作

在本文中,我们提出了一个新的GDAP模型,首次尝试在事件提取领域进行基于提示的学习。这种简单的方法还创新性地解耦了触发器和论元的生成,解决了目标重叠的问题,并在11个不同基线的综合实验中被证明是有效的。在未来,我们将继续调查我们在3.2中讨论的经验观察结果。此外,我们计划探索在不同模块之间的模型权重共享,提高GDAP框架的性能(特别是精度),并将其转移到更多的应用程序中。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值