【论文阅读笔记|ACL2021】CasEE: A Joint Learning Framework with Cascade Decoding for Overlapping Event Extrac

Rose sait

已于 2022-12-01 13:58:41 修改

阅读量1k

点赞数 2

文章标签：论文阅读

于 2022-11-10 22:11:07 首次发布

本文链接：https://blog.csdn.net/weixin_46025824/article/details/127795089

版权

论文题目：CasEE: A Joint Learning Framework with Cascade Decoding for Overlapping Event Extraction

论文来源：ACL2021

论文链接：https://arxiv.org/pdf/2107.01583.pdf

代码链接：https://github.com/JiaweiSheng/CasEE

0 摘要

事件抽取(EE)是一项重要的信息抽取任务，旨在抽取文本中的事件信息。现有的方法大都假设事件出现在没有重叠的句子中，这不适用于复杂的重叠事件抽取。本论文系统地研究了事件重叠问题，其中一个词可以作为具有几种类型或具有不同角色的论元的触发词。为了解决上述问题，我们提出了一种新的具有级联解码的联合学习框架来进行重叠事件抽取，称为CasEE。CasEE依次执行类型检测、触发词抽取和论元抽取，其中重叠的目标是根据特定的前一个预测分别抽取的。所有的子任务都在一个框架中共同学习，以捕获子任务之间的依赖关系。对公共事件FewFC抽取基准的评估表明，CasEE在重叠事件抽取方面比以前的方法取得的结果好。

1 引言

事件抽取(EE)是自然语言处理中一项重要而又具有挑战性的任务。给定一个句子，事件抽取系统应该识别事件类型、触发词以及出现在句子中的事件和论元。例如，图1(b)展示了一个类型Share Reduction的事件，由“reduced”触发。有几个论元，如“Fuda Industry”在事件中扮演了subject角色。

然而，事件往往复杂地出现在句子中，在一个句子中，触发词和论元可能有重叠。本文重点讨论EE中一个具有挑战性的现实问题：重叠事件的抽取(overlapping event extraction)。

所有的重叠情况分为三种模式。

1）一个词可以作为不同事件类型的触发词；图1(a)显示了'acquired'这个token同时触发了一个Investment事件和Share Transfer事件；

2) 一个词在不同事件中扮演不同角色的论元，图1(a)显示了“Shengyue Network”在Investment事件中扮演object角色，在Share Transfer事件中扮演subject角色；

3）一个论元，在同一个事件中扮演不同的角色，图1(b)显示，“Fuda Industry”在Share Reduction事件中扮演着subject角色和target角色。

模式1)为触发词重叠问题，而模式2)和3)都是重叠论元问题。数据集FewFC中，约有13.5%/21.7%的句子存在触发词/论元重叠问题。

据我们所知，现有的EE研究忽略了重叠问题或只关注一个重叠问题。很少有研究能同时解决上述三种重叠模式。

为了解决上述三种重叠问题，提出了一个用于重叠事件抽取的级联解码的联合学习框架CasEE(a joint learning framework with Cascade decoding for overlapping Event Extraction)。CasEE通过一个共享的文本编码器和三个解码器来实现事件抽取，分别用于类型检测、触发词抽取和论元抽取。为了抽取事件之间的重叠目标，CasEE对三个子任务进行顺序解码，根据之前的预测进行触发词抽取和论元抽取。这种级联解码策略根据不同的条件抽取事件元素，以便在不同的阶段抽取重叠的目标。设计了一个条件融合函数来显式地建模相邻子任务之间的依赖关系。共同学习所有的子任务解码器，进一步建立子任务之间的连接，从而通过下游子任务之间的特征级交互来细化共享的文本编码器。

本文的贡献：

系统地研究了事件抽取中的重叠问题，并将其分为三种模式。
提出了一种新的CasEE的级联解码联合学习框架，同时解决这三种重叠模式。
在一个公开的中国金融事件数据集FewFC上进行实验。实验结果表明，与现有的方法相比，CasEE在重叠事件抽取方面取得了显著的改进。

2 相关工作

目前的事件抽取研究大致可分为两类：

1)传统联合方法，同时执行触发词抽取和论元抽取。它们以序列标注的方式解决任务，并通过只标记一次句子来抽取触发词和论元。然而，这些方法无法解决重叠事件抽取，因为当重叠标记被迫有多个标签时，重叠标记会导致标签冲突。

2) Pipeline方法，在不同阶段执行触发词抽取和论元抽取。虽然Pipeline方法具有解决重叠事件抽取的潜在能力，但通常缺乏触发词和论元之间的显式依赖关系，并且存在错误传播的问题。在这个方法中，Yang等人（2019）和Xu等人（2020）解决了重叠论元问题，但忽略了重叠触发词问题，无法识别正确的触发词进行论元提取。上述所有方法都不能同时求解事件抽取中的所有重叠模式。

在事件抽取之外的其他信息抽取任务中也探讨了重叠问题。Luo和Zhao（2020）利用二部平面图网络处理了嵌套的命名实体识别问题。Zeng等人（2018）通过应用具有复制机制的序列到序列范式来解决重叠关系三重提取问题。Wei等人（2020）和Yu等人（2020）用一种新的级联标记策略提取重叠的关系三元组，这启发了我们去解决级联解码范式中的重叠事件提取问题。Wang等人（2020）进一步讨论了级联译码中的传播误差。以上所有的研究都是针对其他任务提出的，由于事件提取的定义复杂，不能直接转移到重叠事件提取中。

3 模型

输入一个句子，事件抽取的目标是用事件类型和论元来识别触发词，其中，触发词和论元可能在某些标记上重叠。为了解决这个问题，我们提出了一个在事件级别上的训练目标。根据预定义的事件模式，设定事件类型集C和论元角色集R，总体目标是预测句子x的集合Ex的所有事件。目标是最大化训练数据D的联合概率：

（1）

其中Cx表示在句子x中出现的类型集，Tx,c表示类型c的触发词集合，Ax,c,t表示类型c和触发词t的论元集合，（每个c是事件类型集C的一个类型，每个t是一个触发词，每个 $a_{r}\in A_{x}$ 是一个论元，r是其对应的角色（r∈R））

等式1利用了类型、触发词、论元之间的依赖关系，一个检测句子中发生的事件类型检测解码器p(c|x)，一个用于抽取类型c的触发词抽取解码器p(t|x,c)，用于抽取类型c和触发词t的特定角色论元的论元抽取器p(ar|x,c,t)。

这样的任务分解解决了引言中的所有事件重叠模型，首先检测发生在句子中的事件类型，抽取触发词时，只预测具有特定类型的触发词，因此在多个事件中重叠的触发词将在不同的阶段进行预测。在抽取论元时，使用特定类型和触发词来预测论元，因此在多个事件中重叠的论元也将在不同的阶段进行预测。由于在论元抽取中采用了特定于角色的标记，所以在事件中具有多个角色的重叠论元中可以用特定的标记分别进行预测。类型检测、触发词抽取和论元抽取中的所有预测形成最终预测。

图2展示了CasEE的详细信息。CasEE采用了一个共享的BERT编码器来捕获文本特征，以及另外三个解码器来用于类型检测、触发词抽取和论元抽取。由于与之前的Pipline方法相比，所有子任务都是共同学习的，CasEE可以捕获子任务之间的特征级依赖关系。对于预测，CasEE依次预测级联解码过程中的事件类型、触发词和论元。

3.1 Bert编码器

为了捕获子任务之间的特征级依赖关系，我们共享每个句子的文本表示。由于BERT在多个NLP任务中显示出了性能改进，我们采用BERT作为我们的文本编码器。BERT是一种基于转换器体系结构的双向语言表示模型，它生成基于标记上下文的文本表示，并保持丰富的文本信息。带有N个标记的句子记为x=w1, w2, ..., wN。将token输入到BERT中，然后得到隐藏状态H = h1, h2, ..., hN作为以下下游子任务的token表示。

3.2 类型检测解码器

本论文是通过抽取基于类型预测条件的触发词来解决重叠触发词问题，因此我们设计了一个类型检测解码器来预测事件类型。受没有触发词的事件检测的启发，我们采用注意机制来检测事件类型，为每种可能的类型捕获最相关的上下文。即随机初始化嵌入矩阵作为类型嵌入。定义一个相似度函数δ来度量候选类型c ∈ C和每个标记表示hi之间的相关性。为了充分捕获不同方面的相似性信息，我们实现了具有表达性可学习功能的δ。根据相关性得分，得到了自适应于该类型的句子表示sc。详情如下：

是可学习的参数，|·|是一个绝对值运算符，是元素级的乘法，并且[·；·]表示representations的连接。

最后，我们通过测量自适应句子表示具有相同δ相似函数的sc和嵌入类型c的相似性来预测事件类型。然后，每个事件类型c在句子中发生的预测概率为

σ为sigmoid函数，选择使用c>ξ1作为结果的事件类型，其中ξ1∈[0,1]是一个标量阈值。句子x中的所有预测类型形成事件类型集Cx。解码器可学习参数θtd{W、v、C}。

3.3 触发词抽取解码器

为了识别具有几种类型的重叠触发器，我们抽取了基于特定类型的触发词。该解码器包含一个条件融合函数(条件层归一化)、一个自注意层和一对用于触发器的二进制标记器。

为了模拟类型检测和触发词抽取之间的条件依赖关系，我们设计了一个条件融合函数φ来将条件信息集成到文本表示中。即通过将类型嵌入c集成到token表示hi中来获得条件token表示为：

实际上，φ可以通过串联、加法运算符或门机制来实现。为了在统计方面充分生成条件表示，我们引入了一种有效的通用机制，即条件层归一化(conditional layer normalization，CLN)以实现φ。CLN主要基于层归一化，但可以基于条件信息动态生成增益γ和偏置β。给定一个条件嵌入c和一个token表示hi，CLN被表示为：

其中，为hi元素的均值和标准方差，分别为conditional gain和偏差。这样，给定的条件表示被编码到增益和偏差中，然后整合到上下文表示中。

为了进一步细化触发词抽取的表示，在条件token表示上采用了自注意层。在形式上，细化的token表示被派生为：

是由组成的表示矩阵。

为了预测触发词，设计一对二进制标记器，对于每个token ωi，通过以下方式预测它是否对应于一个触发词的起始和结束位置：

σ是sigmoid函数，是中第i个token表示，选择的token作为开始位置，的token作为结束位置，是标量阈值，为了得到触发词t，我们枚举了所有的开始位置，并搜索了句子中最近的后续结束位置，并且开始位置和结束位置之间的token形成了整个触发词，这样就可以根据不同阶段中的类型分别抽取重叠的触发词，句子s中所有c类型的所有预测触发词t形成了集合。解码器参数包括条件融合函数、自注意力层和触发词标记层的所有参数。

3.4 论元抽取解码器

为了解决重叠论元问题，我们抽取了基于特定事件类型和事件触发词的特定角色论元。该解码器还包含一个条件融合函数、一个自注意层和一组特定于角色的二进制标记对。

进一步将触发词信息整合到 (由CLN实现），把t的开始和结束位置的token表示的平均值作为触发词嵌入，还采用了自注意力层来获得更正确的文本表示。为了找到触发词位置，采用相对位置嵌入，即从当前token到触发词边界token的相对距离，最后推导出论元抽取的token表示

是相对位置嵌入的信息，dp是维度，表示向量的拼接，对应的维数增加。

为了预测角色的论元，设计了一组特定角色的标记对，对于每个标记ωi，我们预测它是否对应于角色r∈R的一个论元的起始或结束的位置：

（σ是sigmoid函数，是的第 i 个token表示，由于不是所有的角色都属于特定的类型c，所以采用一个指标函数,根据预定义的事件方案来指示角色r是否属于类型c。为了使指示函数可衍生，参数化来对模型参数进行学习，即给定嵌入的类型，建立类型和角色之间的连接：

σ表示sigmoid函数，是与角色相关的参数，对于每个角色r,选择的token作为起始的位置，的token作为结束的位置。 ξ4, ξ5 ∈ [0, 1]是标量阈值。

为了得到角色r的论元a，枚举所有的开始位置并搜索句子中最近的结束位置，开始位置和结束位置之间的token形成一个完整的论元。通过这种方式，可以根据不同类型和具有特定角色标记的触发词分别抽取重叠的论元。句子x中类型为c触发词为t的预测论元ar形成了集合At,c,x。解码器参数包括类型嵌入矩阵C、条件融合函数中的所有的参数、自注意力层和论元标记的参数。

3.5 模型训练

总体的损失函数

其中，子任务被定义为：

其中，是等式3,7,9的预测概率，，是训练数据的真实0/1标签

中的

分别表示BERT、类型检测、触发词抽取和论元抽取中的论元，通过Adam随机梯度下降最大化J(Θ)来训练模型。

4 实验

在本节中，将进行实验来评估CasEE的性能。

4.1 数据集和评估指标

我们在中国金融事件抽取基准FewFC上进行了实验。用8：1：1分割数据进行训练/验证/测试。表1显示了更多的细节。对于评估，我们遵循传统的评估指标：1)触发词识别(TI)：如果预测的触发token与正确token匹配，表示触发词正确识别；2)触发词分类(TC)：如果触发词被正确识别并分配给正确类型，则表示触发词被正确识别；3)论元识别(AI)：如果一个论元的事件类型被正确识别，并且预测的论元token与正确的token匹配，则该论元被正确识别；4)论元分类(AC)：如果论元被正确识别，并且预测的角色与正确的角色匹配，则表示论元被正确分类。我们报告了这四个指标的准确度(P)、召回率(R)和F值（F1）。

4.2 对比实验

虽然最近建立了各种事件抽取模型，但对解决重叠事件抽取问题的研究却很少。我们试图根据当前的解决方案开发以下baseline。为了现实的考虑，没有候选实体已知的事件抽取。

联合序列标记方法。这种方法将事件抽取转化为一个序列标记任务。BERT-softmax采用BERT来学习文本，并使用隐藏状态来对事件触发词和论元进行分类。BERT-CRF采用条件随机场(CRF)来捕获标签依赖关系。BERT-CRF-joint借鉴了实体与关系联合抽取的思想，采用类型和角色的联合标签B/I/O-type-role，以上所有的方法都不能解决由于标签冲突二导致的重叠问题。

Pipline事件抽取方法。PLMEE：通过触发词抽取特定角色的论元来解决重叠论元问题。当前基于阅读理解的事件抽取研究，本论文训练多个MRC BERT来进行重叠事件抽取。本论文扩展了MQAEE用于多跨度抽取，并重新组装以下方法，以考虑事件抽取的条件：（1）MQAEE-1：该方法首先预测事件类型，然后根据类型预测重叠的触发词/论元；（2）MQAEE-2 ：该方法预测具有类型的重叠触发词，然后根据有类型的触发词预测重叠的论元；（3）MQAEE-3：该方法先预测事件类型，然后根据类型和触发词预测重叠论元。上述所有的pipiline方法都可以解决（或部分解决）重叠事件抽取。

4.3 实验细节

我们采用PLMEE的源代码，超参数是其在原始论文中写的最佳超参数。为了实现其他baseline，我们实现了基于transformer的代码。所有方法均采用Chinese BERT-Base模型作为文本编码器，共包含12层、768个隐藏单元和12个注意头。我们对这些方法之间的常见超参数使用相同的值，包括优化器、学习率、批处理大小和epoch。对于所有的超参数，采用网格搜索策略。

用Adam权重衰减优化器来训练所有的方法。初始学习速率在[1e−5,5e−5]中对BERT参数和[1e−4,3e−4]中进行调整。学习率的增加比例为10%，最大epoch设置为20。批处理大小被设置为8。对于CasEE，相对位置嵌入的维数dp在{16、32、64}中进行了调整。为了避免过拟合，我们将BERT隐藏状态应用在[0,1]中调整速率。此外，[0,1]对预测阈值ξ1、ξ2、ξ3、ξ4、ξ5进行了调整。我们选择最佳模型，导致验证数据性能的最高。

4.4 主要结果

所有方法在FewFC数据集上的性能见表2。

与联合序列标记方法相比，CasEE在F1评分上有更好的性能。具体来说，CasEE在AC的F1评分上分别比BERT-CRF提高4.5%，比BERT-CRF-joint提高4.3%。此外，CasEE对评价指标的召回率产生了更高的结果，因为序列标记方法存在标签冲突，对于这些多标签标记只能预测一个标签。结果表明了CasEE在重叠事件抽取方面的有效性。
与pipline方法相比，我们的方法在F1分数上也优于它们。结果表明，CasEE对TC和AC的F1评分比PLMEE分别提高了3.1%和2.6%，说明了解决EE中重叠触发问题的重要性。虽然基于MRC的基线可以抽取重叠的触发器和参数，CasEE仍然取得了更好的表现。与强baseline MQAEE-2相比，CasEE相对提高了4.1%。原因可能是CasEE共同学习子任务的文本表示，在子任务之间建立有用的交互和连接。结果表明，CasEE优于上述pipline baseline。

4.5 重叠/正常数据分析

为了进一步了解测试过程中的性能，我们将原始测试数据分为两组：有重叠元素的句子和没有重叠元素的句子。

在重叠的句子上的表现。如表3所示，我们的方法在重叠句子上明显优于以前的方法。与序列标记方法相比，我们的方法避免了标签冲突，并且与pipline方法相比，它在子任务之间建立了更有效的特征级连接。

正常句子的性能。如表4所示，我们的方法在没有重叠事件元素的正常句子上仍然执行可接受的结果。序列标记方法在触发器抽取上具有相似的结果，但在参数抽取上的结果相对较好，避免了级联解码的潜在传播误差。此外，PLMEE在触发词抽取上的结果相似，但在论元抽取上的结果相对较好，原因可能是它像在原始论文中一样，对不同的论元角色采用了详尽的重新加权损失。此外，MQAEE-2预测了更准确的触发词，因为它联合预测了具有类型的触发词，但它忽略了子任务之间的特征级连接，使得论元抽取结果类似于CasEE。即便如此，与基线相比，CasEE在正常句子上仍然有可接受的表现。在未来的工作中，我们将进一步解决潜在的传播误差，并提高一般事件抽取的性能。

4.6 消融实验

为了研究每个模块的有效性，我们对CasEE进行了改变，并进行了实验。

检测模块变体。表5显示了类型检测变量的性能。具体来说，MaxP/MeanP通过在BERT隐藏状态上应用最大池化/平均池化来聚合文本表示；CLS利用特殊token<CLS>的隐藏状态作为句子表示。结果表明，我们的方法在F1得分上优于上述所有变量，表明自适应事件类型的学习句子表征为类型检测产生了更好的表征。

抽取模块变体。表6和表7分别显示了触发词抽取和论元抽取的解码器变体的性能。我们去掉了两个抽取解码器中的自注意层，并去掉了论元抽取解码器中的相对位置嵌入和指示符函数。实验结果证明了各模块的有效性。

此外，我们还进行了实验来探索条件融合函数φ的影响。实验包括：1)我们简单地去除条件积分函数；2)通过连接条件和token表示来实现φ；3)通过简单地将条件嵌入到标记表示中来实现φ；4)通过门机制实现φ，根据可学习的权衡因子将条件嵌入到token表示中。结果表明，无条件融合函数的性能在两个解码器的f1分数上显著下降，因为该模型不能识别在句子中抽取的不同目标。此外，实证结果也表明，CLN的性能比其他融合函数在F1得分在两个解码器上更优，表明CLN可以为下游子任务生成更好的条件token表示。

5 结论

本文提出了一种基于级联解码的重叠事件抽取的联合学习框架，称为CasEE。以往的研究通常假设事件出现在没有重叠的句子中，这并不适用于复杂的重叠场景。CasEE依次执行类型检测、触发词抽取和论元抽取，其中重叠目标根据以前的预测分别抽取。所有的子任务都被联合学习，以捕获子任务之间的依赖关系。在公共数据集上的实验表明，我们的模型在重叠事件抽取方面优于以往的方法。我们未来的工作可能会进一步解决级联解码范式中潜在的错误传播问题，并提高一般事件抽取的性能。

Rose sait

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
【论文阅读笔记|ACL2021】CasEE: A Joint Learning Framework with Cascade Decoding for Overlapping Event Extrac

本文提出了一种基于级联解码的重叠事件抽取的联合学习框架，称为CasEE。以往的研究通常假设事件出现在没有重叠的句子中，这并不适用于复杂的重叠场景。CasEE依次执行类型检测、触发词抽取和论元抽取，其中重叠目标根据以前的预测分别抽取。所有的子任务都被联合学习，以捕获子任务之间的依赖关系。在公共数据集上的实验表明，我们的模型在重叠事件抽取方面优于以往的方法。我们未来的工作可能会进一步解决级联解码范式中潜在的错误传播问题，并提高一般事件抽取的性能。
复制链接

扫一扫