【论文阅读笔记|NAACL2022】DEGREE: A Data-Efficient Generation-Based Event Extraction Model

论文题目:DEGREE: A Data-Effificient Generation-Based Event Extraction Model

论文来源:NAACL2022

论文链接:https://arxiv.org/pdf/2108.12724.pdf 

代码链接:https://github.com/PlusLabNLP/DEGREE 

0 摘要

事件抽取需要高质量的专家人工注释,而这比较昂贵的。因此,学习一个仅用少数标记示例训练的数据高效事件提取模型已经成为一个关键的挑战。在本文中,我们关注了小样本的端到端事件提取,并提出了DEGREE,一个数据高效的模型,将事件抽取作为一个条件生成问题。给定一段和一个手动设计的promptDEGREE学习将文章中提到的事件总结成一个遵循预定义模式的自然句子。然后用确定性算法从生成的句子中提取最终的事件预测。DEGREE对于以较少的训练数据进行良好的学习有三个优势。首先,我们设计的promptDEGREE提供了语义指导,以利用标签语义,从而更好地捕获事件论元。此外,DEGREE能够使用额外的弱监督信息,如在prompt中编码的事件的描述。最后,DEGREE以端到端的方式联合学习触发词和论元,这鼓励了模型更好地利用它们之间共享的知识和依赖关系。实验结果表明,小样本事件提取具有较强的性能。

1 引言

事件抽取(EE)的目的是从一个给定的段落中提取事件,每个事件由一个触发词和几个论元组成。例如,在图1中,Justice:Execute事件是由 "execution "一词触发的,该事件包含三个论元角色,包括执行处决的Agent (Indonesia) Person(convicts)和place(在段落中没有提到)。先前的工作通常将EE分为两个子任务:(1)事件检测,识别事件触发词及其类型;(2)事件论元抽取,提取给定事件触发词的论元及其角色。EE已被证明有利于广泛的应用,例如,构建知识图谱、问答和其他下游研究。

以往大多数的EE研究都依赖于大量的注释数据进行训练。然而,获取高质量的事件注释的代价很高。例如,ACE 2005语料库是使用最广泛的EE数据集之一,需要语言学专家进行两轮注释。高的注释成本使这些模型难以扩展到新的域和新的事件类型。因此,如何学习一个仅用少数注释的例子训练的数据高效EE模型是一个重要的挑战。

在本文中,我们关注小样本事件抽取,其中只有少量的训练例子可用于训练。我们提出DEGREE(基于数据效率的基因演绎事件抽取),这是一个基于生成的模型,将一段话和一个人工设计的提示作为该模型以一段话和一个人工设计的提示作为输入,并学习将这段话总结为一个符合预定模板的自然句子。如图2所示。事件触发词和论元可以通过一个确定的算法从生成的句子中提取。

DEGREE可以以较少的训练数据学习。首先,该框架通过prompt中设计的模板提供标签语义。如图2中的示例所示,提示符中的单词“somewhere”指导模型预测与角色位置相似的单词。此外,模板的句子结构和单词“attacked”描述了角色攻击者和角色目标之间的语义关系。有了这种指导,DEGREE可以用更少的训练例子做出更准确的预测。其次,prompt可以包含关于任务的其他弱监督信号,如事件的描述和类似的关键字。这些资源通常是很容易获得的。例如,在我们的实验中,我们从与数据集一起提供的注释指南中获取信息。这些信息有助于在资源匮乏的情况下学习DEGREE最后,设计DEGREE进行端到端事件提取,可以同时解决事件检测和事件论元提取的问题。利用这两个任务之间共享的知识和依赖关系,可以使我们的模型更具有数据效率。

现有的关于EE的工作通常只有一个或两个上述优点。例如,先前基于分类的模型很难编码标签语义和其他弱监督信号。最近提出的基于生成的事件提取模型以pipeline方式解决了这个问题;但是,他们不能利用子任务之间的共享知识,并且生成的输出不是自然的句子,这阻碍了标签语义的使用。因此,在我们的低资源事件提取中,我们的模型程度可以获得比之前的方法更好的性能,我们将在第4节进行说明。

我们的贡献可以总结如下:

  • 我们提出了一种基于生成的事件抽取模型DEGREE,通过更好地合并标签语义和子任务之间的共享知识,用更少的数据很好地学习(第3节)
  • 在ACE 2005上进行的实验表明,在小样本的环境下,DEGREE的表现良好(第4节)。
  • 我们在小样本和小样本的环境下进行了消融研究,以更好地理解我们的模型的优缺点(第5节)。

2 相关工作

完全受到监督的事件抽取事件抽取已经研究了十多年,大多数传统事件抽取工作遵循完全监督的设置。他们中的许多人使用基于分类的模型,并使用pipline风格的框架来提取事件。为了更好地利用事件触发词和论元中的共享知识,一些工作建议结合全局特征来共同决定触发词和论元。

最近,很少提出基于生成的事件抽取模型。TANL将事件抽取视为增强的自然语言之间的翻译任务。他们预测的目标增强语言通过使用方括号和竖条符号将标签嵌入到输入通道中。TempGen是一个基于模板的角色填充实体抽取模型,它生成输出,将角色实体填充到非自然的模板序列中。TANL和TempGen的输出序列设计阻碍了模型充分利用标签语义,而不像生成自然句子的程度。BART-Gen也是一个基于生成的模型,专注于文档级事件论元抽取。它们使用pipline解决事件抽取,这阻止了子任务之间的知识共享。所有这些完全监督的方法都可以通过大量的注释数据来实现可观的性能。然而,它们的设计并不是针对小样本场景的,因此,这些模型不能同时享受小样本事件提取的程度所获得的所有好处,如我们在第1节中所述。

资源不足的事件提取。人们对在数据较少的场景中进行的事件抽取越来越感兴趣。Liu等人(2020)使用机器阅读理解公式在低资源条件下进行事件提取。Text2Event是一种序列到结构的生成范式,首先以线性化的格式呈现事件,然后训练生成模型来生成线性化的事件序列。Text2Event的非自然的输出格式阻碍了模型充分利用预训练好的知识。因此,他们的模型在只有极低数据的情况下表现不足(如第4节所示)。

另一个工作主线是使用元学习来应对较少的标签挑战。然而,他们的方法只能应用于事件检测,这与我们主要关注的研究端到端事件抽取的方法不同。

3 数据高效的事件抽取

我们引入了DEGREE,一个基于生成的低资源事件抽取模型。与之前的工作不同,它将事件抽取分为两个pipline任务(事件检测和事件论元抽取),DEGREE被设计为端到端事件抽取,并同时预测事件触发词和论元。

3.1 模型

我们将事件抽取表述为一个条件生成问题。如图2所示,给定一段文章和我们设计的prompt,DEGREE会生成一个遵循特定格式的输出。然后,可以使用确定性算法从生成的输出中解析事件触发词和论元角色的最终预测。与以往基于分类的模型相比,生成框架提供了一种灵活的方式,包括附加信息和指导。通过设计适当的提示,我们鼓励程度更好地捕捉实体之间的依赖关系,从而减少所需的training示例的数量。

所需的prompt不仅提供了信息,而且还定义了输出格式。如下图所示,它包含以下组件:

事件类型定义描述了对给定事件类型的定义。

 “The event is related to conflflict and some violent physical act.” 描述了一个Conflflict:Attack事件

事件关键字表示一些与给定事件类型有语义相关的单词。

例如,war, attack, and terrorism Conflflict:Attack事件的三个关键词。在实践中,我们从注释指南中收集了三个作为示例句子触发器的单词。

E2E模板定义了预期的输出格式,可以分为两部分。

  • 第一部分被称为ED模板,它被设计为“Event trigger is <Trigger>”,其中“<Trigger>”是一个作为占位符的特殊token。
  • 第二部分是EAE模板,它根据给定的事件类型而有所不同。例如,在图2中,
    Conflflict:Attack event is some attacker attacked  some facility, someone, or some organization by some way in somewhere”。每个以“some-”开头的下划线字符串作为一个占位符,对应于 Conflflict:Attack 事件的论元角色。例如,“ some way”对应角色工具,“somewhere”对应角色位置。请注意,每个事件类型都有它自己的EAE模板。

表1是一些EAE模板。

3.2 训练

DEGREE的训练目标是生成一个输出,用gold label替换E2E模板中的占位符。

DEGREE 将用gold trigger(detonated)取代“<Trigger>”,用角色Attacker (Palestinian),取代“some attacker”,用Instrument (bomb)取代“some way”。如果同一个角色有多个论元,则它们将通过“and”连接;如果一个角色没有预测论元,模型保留相应的占位符(即E2E模板中的“some-”)。

对于输入通道中给定事件类型有多个触发词的情况,训练生成包含多个E2E模板的输出文本,这样每个E2E模板对应一个触发词及其论元角色。

3.3 推理

我们枚举了所有的事件类型,并为每个事件类型生成了一个输出。在我们获得生成的句子后,我们将输出与E2E模板进行比较,以确定字符串格式的预测触发词和论元。最后,我们应用字符串匹配将预测的字符串转换为跨越段落中的偏移量。如果预测的字符串出现在文章中多次,我们将选择与触发词预测相匹配的所有span偏移量,并选择一个最接近给定的触发词跨度的论元预测。

3.4 论述(Discussion)

E2E模板在DEGREE方面起着重要的作用。

  1. 它作为控制信号,定义了预期的输出格式。
  2. 它提供了标签语义来帮助DEGREE做出准确的预测。

E2E模板中的那些占位符(以“some-”开头的单词)提供了关于论元的实体类型的一些提示。例如,当看到“somewhere”时,DEGREE倾向于产生一个位置,而不是一个人。此外,除了“some-”之外的词描述角色之间的关系。例如,由于E2E模板,DEGREE知道角色攻击者和角色目标(谁在攻击,谁在被攻击)之间的关系。E2E模板可指导帮助DEGREE学习实体之间的依赖关系。

与基于generation的方法不同,我们有意在自然句子中编写E2E模板。这不仅更好地使用标签语义,而且使模型更容易利用来自预训练的解码器的知识。在第5节中,我们将提供实验来证明使用自然句子的优势。

模板构建成本。DEGREE确实需要人工来设计模板;然而,编写这些模板比收集复杂的事件注释要容易得多、也简单得多。如表1所示,我们保持了EAE模板尽可能的简单和简短。因此,不是语言专家的人只需要一分钟就可以编写模板。事实上,之前的几项工作也使用构建的模板作为弱监督信号来改进模型。在第5节中,我们将研究不同的模板如何影响性能。

效率考虑。DEGREE要求在推理过程中枚举所有事件类型,当扩展到包含许多事件类型的应用程序时,这可能会导致效率考虑。这个问题对于我们在两个数据集(ACE 2005和ERE-EN)上的实验来说很小,就事件类型的数量而言,这是相对较小的尺度。由于注释的成本很高,几乎没有任何公开的数据集用于大规模的端到端事件提取。 当实验规模扩大时,我们无法提供更全面的研究了。因此,我们将基准和提高DEGREE效率的工作搁置,将更多样化和全面的事件类型作为未来的工作。

3.5 pipline框架中的DEGREE

DEGREE是灵活的,可以很容易地修改到DEGREE(PIPE),它首先关注事件检测(ED),然后求解事件论元提取(EAE)。DEGREE(PIPE)由两个模型组成:

  1. DEGREE(ED),其目的是精确地给定事件类型的事件触发词;
  2. DEGREE(EAE),它识别给定事件类型的论文角色和相应的触发词。

DEGREE(ED)和DEGREE(EAE)与DEGREE相似,但提示和输出格式不同。我们如下描述差异。

DEGREE(ED)。DEGREE提示符(ED)包含以下组件:

  • 事件类型的定义DEGREE对事件类型的定义相同。
  • 事件关键词DEGREE关键词相同。
  • ED模板被设计为“Event trigger is <Trigger>”,是E2E模板的第一部分。

DEGREE类似,DEGREE(ED)的目标是生成一个输出,用事件触发器替换ED模板中的“<Trigger>”。

DEGREE(EAE)。DEGREE提示符(EAE)包含以下组件:

  • 事件类型的定义DEGREE对事件类型的定义相同。
  • 查询触发词是指示给定事件类型的触发词字的字符串。例如,“The event trigger word is detonated”指出“detonated”是给定的触发词。
  • EAE模板是前面提到的事件类型的模板,是E2E模板的第二部分。

DEGREE类似,DEGREE(EAE)的目标是生成一个输出,用事件论元替换EAE模板中的占位符。在第4节中,我们将比较DEGREEDEGREE(PIPE),以研究在低资源设置下以端到端方式处理事件抽取的好处。

4 实验

我们进行了低资源事件提取的实验,以研究DEGREE的表现。

4.1 实验设置

数据集。我们考虑了ACE2005,并遵循Wadden等人(2019)和Lin等人(2020)的预处理,产生了两个变体: ACE05-E和ACE05-E+。两者都包含33种事件类型和22个论元角色。此外,我们考虑了ERE-EN(Song et al.,2015),并采用了Lin等人(2020)中的预处理,保留了38种事件类型和21个论证角色。

数据分割为小样本设置。我们生成不同比例(1%、2%、3%、5%、10%、20%、30%和50%)的训练数据,以研究训练集大小的影响,并使用原始的开发集和测试集进行评估。

评估指标。我们在之前的工作中也考虑了相同的标准。(1)触发词F1值:如果触发词的offsetgold one匹配,则正确识别(Tri-I);如果其事件类型也与gold one相匹配,则正确分类(Tri-C)。(2)论元F1值:如果论元的offset和事件类型匹配,则正确识别(Arg-I);如果角色匹配,则正确分类(Arg-C)。

比较基线。我们考虑以下基于分类的模型: (1) OneIE,目前最先进的(SOTA)EE模型,用设计的全局特征进行训练。(2) BERT_QA,它将EE任务视为一系列提取的问题回答问题。由于它学习一个分类器来指示预测sapn的位置,我们将它视为一个分类模型。我们还考虑了以下基于生成的模型。(3) TANL,该研究将EE任务视为增强的自然语言之间的翻译任务。(4)Text2Event,一个将输入通道转换为树状事件结构的序列到结构模型。请注意,这两个基于生成的基线的输出都不是自然的句子。因此,他们更难使用标签的语义。值得注意的是,正如原始论文所建议的那样,我们用已命名的实体注释来训练OneIE,而其他模型在训练时没有使用实体注释。

4.2 主要结果

表2显示了三个训练数据比例不同的数据集的触发器分类f1分数和参数分类f1分数。

结果如图3所示。由于我们的任务是端到端事件提取,因此参数分类F1-score是我们在比较模型时考虑的更重要的指标。

从图和表格中,我们可以观察到,当使用少于10%的训练数据时,DEGREEDEGREE(PIPE)的性能都优于所有其他基线。在极低的数据情况下,性能差距会变得更加显著。例如,当只有1%的训练数据可用时,DEGREEDEGREE(PIPE)在触发词分类F1得分提高15分以上,在参数分类F1得分提高5分以上。这证明了我们的设计的有效性。具有精心设计的提示的基于生成的模型能够利用标签语义和额外的弱监督信号,从而帮助在小样本机制下学习。

另一个有趣的发现是,DEGREEDEGREE(PIPE)似乎更有利于预测论元,而不是预测触发词因素。例如,最强的基线,需要20%的训练数据在触发词预测DEGREE(PIPE)上取得竞争性能;然而,它需要大约50%的训练数据才能在预测论元方面实现竞争性能。原因是,捕获依赖关系对于论元预测来说的能力比触发词预测更重要,因为与触发器相比,论元通常彼此强烈地依赖。因此,我们的模型对论证预测的改进是比较大的。

此外,我们观察到,在小样本设置下,DEGREE略优于DEGREE(PIPE)。这为在小样本环境下联合预测触发词和论元的好处提供了经验证据。

 最后,我们对小样本和零样本实验进行了额外的实验。研究结果见附录E。

4.3高资源的事件提取

虽然我们关注小样本事件提取的数据高效学习,但为了更好地理解我们的模型的优缺点,我们还研究了高资源设置中的程度,以进行控制比较。

比较基线。除了上面提到的EE模型: OneIE(Lin等人,2020年)、BERT_QA(Du和Cardie,2020年)、TANL(Paolini等人,2021年)和Text2Event(Lu等人,2021年),我们还考虑了以下侧重于高资源设置的基线。dbRNN(Sha et al.,2018)是一种基于分类的模型,它为事件提取添加了依赖桥。DyGIE++(Wadden等人,2019)是一个基于分类的模型,具有跨度图传播技术。Joint3EE(Nguyen和Nguyen,2019)是一个基于分类的模型,它联合训练了实体、触发器和参数的注释。MQAEE(Li等人,2020)将EE转化为一系列问题回答问题,用于论元提取。BART-Gen(Li et al.,2021)是一个基于生成的模型,只关注事件论元的提取。

 事件提取的结果。表3显示了高资源事件提取的结果。在触发预测(Tri-C)方面,度和度(PIPE)的性能优于所有的基线,除了OneIE,目前最先进的模型。对于论证预测(Arg-C),我们的模型有在三个数据集中的两个中,性能略优于OneIE。当有足够的训练示例时,模型可以从数据中学习更复杂的特征,这些特征不一定遵循学习到的依赖关系。因此,DEGREEDEGREE(PIPE)的优势就变得不那么明显了。这一结果证明了我们的假设,即DEGREE在小样本设置下具有更好的性能,因为它能够更好地捕获依赖关系。

 事件参数提取的结果。在表4中,我们还研究了事件论元抽取任务的性能,其中模型使用提供的gold触发词进行论元预测。有趣的是,DEGREE(EAE)取得了相当强的性能,并以很大的优势优于其他基线。结合表3中的结果,我们假设事件论元提取是一个比事件触发词检测更具挑战性的任务,它需要更多的训练示例来更好地学习。因此,我们提出的模型利用了使用标签语义来更好地捕获依赖关系,实现了一种新的最先进的事件论元提取。

5 消融研究

在本节中,我们提出了全面的消融研究来证明我们的设计。为了更好地理解每个组件在设计的提示中的贡献及其对不同任务的影响,我们在低资源和高资源情况下的DEGREE(EAE)和DEGREE(ED)。

提示符中的组件的影响。表5列出了在ACE05-E上的事件检测提示中删除组件时的性能变化。每当删除任何一个事件类型定义、事件关键字和ED模板时,性能都会下降。结果表明,有三个组成部分都是必要的。

表6展示了如何不同的比较,提示中的零值会影响ACE05-E上的事件论元提取的性能。删除任何一个事件类型定义、查询触发词和EAE模板都会导致性能下降,从而验证了它们的必要性。我们观察到,查询触发词在这三种信号中起着最重要的作用,当给出较少的训练数据时,利用这些弱监督信号的优势就会变得更加明显。

不同模板设计的效果。为了验证使用自然句子作为输出的重要性,我们研究了EAE模板的三种变体:

  1. 自然的句子。我们在第2节中描述的模板,例如,"somebody was born in somewhere.",其中“somebody”和“somewhere”是占位符,可以用相应的论元替换。
  2. 带有特殊token的自然句子。它与自然句子1相似,除了使用特定角色的特殊标记而不是“some-”词。例如,"<Person>was born in<Place>。"我们认为这是为了研究角色的标签语义。
  3. 带有特殊token的类似html的句子。为了研究使用自然句子的重要性,我们还考虑了类似于html的句子,例如,“<Person></Person><Place></Place>”。该模型旨在将论元预测放于相应的HTML标签之间。

ACE05-E上EAE模板的所有变体的结果如表7所示。我们注意到,以自然语言风格编写模板可以获得更好的性能,特别是当只有少数数据可用(占数据的10%)时。这表明了我们的设计在生成过程中利用预先训练过的知识的能力。此外,当用特殊令牌替换自然语言占位符时,有超过 F1分数性能下降。这证实了利用不同的角色的标签语义是有益的。

模板设计敏感性。最后,我们研究了我们的模型对模板的敏感性。除了事件论元提取的原始模板设计外,我们还组合了另外两组具有不同构造规则的模板(例如,不同的单词选择和不同的角色顺序)。表8显示了使用不同模板集的结果。我们观察到使用不同模板时的性能波动,这表明模板的质量确实对性能有一定的影响。因此,我们在设计模板时需要谨慎。然而,尽管我们的模型可能对模板设计敏感,但它仍然优于OneIE和BART-Gen,这分别是最好的基于分类的模型和最佳的基于生成的基线。

6、结论和未来的工作

在本文中,我们提出了DEGREE,一个基于数据高效生成的事件提取模型。DEGREE需要更少的训练数据,因为它更好地利用了标签语义以及弱监督信息,并通过联合预测触发词和论元来捕获更好的依赖关系。我们的实验结果和消融研究显示了DEGREE在低资源事件提取方面的优越性。

DEGREE假设一些弱监督的信息(事件的描述、类似的关键字和人工编写的模板)对用户来说是可访问的或不昂贵的。这种假设可能适用于大多数情况。我们将模板构建的自动化留给了未来的工作,这可以进一步简化在大规模语料库中部署学位时所需的工作。

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值