摘要
以往的大多数研究都是从单个句子中提取事件,而文档级事件提取仍未得到充分探索。在本文中,我们着重于从整个文档中提取事件参数,这主要面临两个关键问题: a)触发器和句子参数之间的长距离依赖关系;b)对文档中事件的分散上下文。为了解决这些问题,文章提出了一个双流抽象意义表示增强提取模型(TSAR)。TSAR通过双流编码模块从不同的角度对文档进行编码,利用局部和全局信息,降低分散上下文的影响。此外,TSAR还引入了一个由AMR引导的交互模块,基于局部和全局构建的AMR语义图,同时捕获句子内和句子间的特征。引入了一种辅助边界损失来显式地增强文本跨度的边界信息。大量的实验表明,TSAR在公共RAMS和WikeEvents数据集上分别提高了2.54的F1和5.13的F1,显示了在跨句子参数提取方面的优越性。代码在https://github.com/ PKUnlp-icler/TSAR上进行了发布。
一、引言
之前的文档级别的EAE(Event Argument Extraction)面临着两个关键挑战:
- 远距离依赖关系:触发器和参数之间的远程依赖关系。这些参数通常位于与触发词不同的不同句子中,它们的距离可能相当远。在图中,当触发器shipment在第2句中时,vehicle、origin、artifact和importor参数位于第1句或第3句中,这大大增加了提取的难度。为了适应长期提取,不仅句子内语义,而且句间语义都应该很好地建模。
- 分散的上下文:虽然文档自然包含的上下文比单个句子包含更多的上下文,但一些分散的上下文可能会误导参数提取。如图所示,origin参数U.S更容易被第4句识别,它不能为事件提供有用的信息。但包含了许多可能分散注意力的地方实体,比如Saudi Arabia、Russia和Iran。在丢弃分散注意力的信息的同时,精确定位有用的上下文仍然具有挑战性。
因此本文提出了一个文档级EAE的双流编码模块,它通过两个不同的角度对文档进行编码,以更好地利用上下文。
- 提出了一个文档级EAE的双流编码模块,它通过两个不同的角度对文档进行编码,以更好地利用上下文。
- 引入了一个AMR引导的交互模块,以促进文档中的语义交互,以便更好地捕获远程距离依赖。
- 我们的实验表明,TSAR在公共RAMS和Wiki事件数据集上分别有了2.54和5.13的F1值提高,特别是在跨句子事件参数提取方面。
二、方法
上图显示了TSAR模型的总体架构。文档被输入双流编码模块,然后是AMR-guided交互模块,以获得全局和局部上下文表示。信息融合模块融合了这些双流表示,分类模块最终预测了候选跨度的参数角色。
2.1 Two-Stream Encoding Module
虽然文档提供了更多的上下文,但它也不可避免地对事件引入了不相关的和分散注意力的信息。这些噪声信号可能对参数提取有害。为了捕获有用的信息和过滤分散注意力的信息,我们提出了一个双流编码模块,包括一个了解所有上下文的全局模块编码器(global encoder),以及只谨慎地关注最基本信息的本地编码器(local encoder)。因此,我们可以利用它们的互补优势来更好地利用上下文信息。
具体来说,全局编码器和本地编码器共享相同的基于Transformer的预训练语言模型,如BERT。通过控制自注意模块中单词的接收域,我们可以从不同的角度对文档进行编码。
在全局编码器中,注意力集中机制与传统的Transformer相同:
然而,在本地编码器中,我们引入了一个掩码矩阵M,这样token只能注意句子本身和触发器所在的句子,以避免冗余的干扰信息:
因此,我们用两个不同的流对文档进行编码,一个全局编码器编码和一个本地编码器,最后导出两个表示,和:
2.2 AMR-Guided Interaction Module
从文档中提取参数的一个关键挑战是捕获句内和句间的特征。因此,文中提出了一个AMR导向的交互模块,该模块采用抽象意义表示(AMR,Banarescu et al.,2013)图,提供丰富的语义结构,促进概念之间的交互,也从语言驱动的角度提供了文档的逻辑意义,有利于语言理解。
AMR语义图将一个句子的意义表示建模为一个有根的、有向的、有标记的图。具体地说,使用一个AMR解析器,一个自然的句子可以被解析为一个AMR图G =(V,E)。节点v =(a,b)∈v表示一个概念,它对应于原点句子中从到的跨度,而边缘表示一个特定的AMR关系。
因此,AMR关注的是语义关系而不是语法关系,语义关系更高层次,有利于事件理解,其结构更接近事件触发参数结构。例如,下图演示了如何将一个句子解析为一个AMR语义图。由于事件参数在文本中扮演着重要的角色,大多数都会涉及其中,如果不是AMR图(RAMS和WikiEvents数据集中90%和88%的参数)。文中使用最先进的AMR解析器费尔南德斯Astudillo等人(2020),为下游应用取得了令人满意的结果(AMR2.0数据高达81.3Smatch)。由于AMR关系类型的数量较大,导致需要的参数过多,我们也遵循Zhang和Ji(2021)将关系类型聚类为主要类别。
AMR-guided交互模块附加在全局和本地编码器之后,如图2所示。在组合、交互和分解范式下,我们使用AMR图作为信息交互的骨架。
从局部的角度来看,我们为文档中的每个句子构建AMR图,并且它们彼此隔离。对于初始化,节点的向量表示是通过平均其对应的局部文本跨度表示来组成的:
类似Zeng等人(2020),我们使用L层堆叠图卷积神经网络(Kipf和Welling,2017)通过不同关系类型的边建模不同概念节点之间的交互。给定第层的节点u,信息交互和聚合操作定义如下:
其中表示不同的关系类型,表示u与第k个关系类型连接的邻居,是一个归一化常数。此外,是一个可训练的参数。
最后,我们将所有层的向量连接起来,得到。然后将分解为对应单词的局部表示,然后进行标记聚合,其中I(·)表示指示函数:
从全局的角度来看,我们首先通过完全连接不同句子的AMR图的根节点来构建全局AMR图,因为根节点根据AMR核心语义原则包含核心语义(Cai and Lam,2019)。然后使用类似的基于图的交互方法来获得AMR增强的全局表示,而是基于全局AMR图。这样,句子间的信息就可以流过句子的边界,因此也可以更好地捕捉到长距离的依赖关系。
2.3 Information Fusion Module
在信息融合模块中,我们融合了全局表示和局部表示,构建候选跨度的最终向量表示。详细地说,我们使用门控融合来控制从双流表示中合并了多少信息。
对于候选文本跨度从到,其融合表示包含起始表示 、结束表示以及跨度中隐藏状态的平均池化,表示如下,其中 :
其中,
由于我们在跨度级别提取参数,其边界可能是模糊的,因此引入了一个辅助边界损失来增强 和 的边界信息。具体来说,我们预测词是否为黄金参数跨度的第一个或最后一个词,通过基于词的分类器实现。 我们使用线性变换后跟随一个 sigmoid 函数,来计算词 \( w_i \) 是黄金参数跨度的第一个或最后一个词的概率,即 和:
最后,边界损失定义为检测起始和结束位置的交叉熵损失:
其中, 和 表示黄金标签。通过这种方式,我们为跨度的起始和结束表示引入了显式监督信号,以增强边界信息,这在提取和探索实验中被证明是有效的。
2.4 Classification Module
在分类模块中,我们预测候选跨度扮演什么参数角色,或者它不属于任何特定的参数角色。除了跨度表示之外,我们还考虑了触发器、事件类型和跨度的长度。具体地说,我们连接以下表示,得到最终的预测向量:
1)触发表示,和跨度表示,与它们的绝对差异,和元素级乘法,⊙;
2)事件类型−的嵌入;
3)跨度长度Elen的嵌入。
然后我们使用交叉熵作为损失函数:
最后,我们用具有超参数λ的最终损失函数进行端到端训练模型。