【论文】[CCL2020]A Novel Joint Framework for Multiple Chinese EventsExtraction

论文题目:A Novel Joint Framework for Multiple Chinese Events Extraction

论文来源:CCL2020

论文链接:https://aclanthology.org/2020.ccl-1.88.pdf

代码链接:

0 摘要

事件抽取是信息抽取中一项重要但又具有挑战性的任务。虽然实践中常见角色重叠问题,但以往的方法很少关注角色重叠问题。为了解决这个问题,本文将事件关系定义为三重,以明确地表示触发词、论元和角色之间的关系,这些角色被纳入模型中,以学习它们的相互依赖关系。提出了一种新的多重中文事件提取联合框架,该框架基于预训练语言模型的共享特征表示,共同对事件触发词和论元进行预测。在ACE 2005数据集上与最先进的基线进行了实验比较,结果表明该方法在触发词分类和论元分类方面都具有优越性。

1 引言

事件提取(EE)在自然语言处理(NLP)中具有实用和挑战性的任务。它旨在识别指定类型的事件触发词及其在文本中的论元。如在自动内容提取(ACE)程序中所定义的,事件提取任务分为两个子任务,即触发词提取(识别和分类事件触发词)和论元提取(识别论元并标记它们的角色)。

由于中文语言的特殊性,中文事件提取是一项比较困难的任务(Chen and Ji,2009)。由于中文在单词之间没有分隔符,分割通常是进一步处理的必要步骤,导致单词触发不匹配问题(Lin et al.,2018)。基于词级分类范式的方法通常也存在这种问题。例如,一个单词“打死”(命中和死亡)中的两个字符会触发两个不同的事件:一个由“打”(命中)触发的“攻击”事件和一个由“死”(死亡)触发的“死亡”事件。当一个触发词是一个单词的一部分或跨越多个单词时,很难准确地提取。为了避免这个问题,我们将中文事件提取制定为一个基于字符的分类任务。此外,事件提取中另一个很少遵循的有趣问题需要更多的努力。本文所关注的是角色重叠问题,包括角色共享相同的论元或在某些单词上的论元重叠的问题。一个句子中存在多个事件,通常会导致角色重叠问题,很容易被忽视。图1(a)显示了在ACE 2005数据集中共享相同论元的角色的示例。“控”(指控)触发指控-指示事件,“杀害”(杀死)触发攻击事件,而论元“他们”(他们)同时扮演“被告”和“攻击者”的角色。图1(b)显示了ACE 2005数据集中某些单词的论元重叠的示例。“来往”(两者之间旅行)引发交通事件,而“中国”(中国)不仅扮演“起源”的角色,还有“目的地”的角色,“来往于中国和澳大利亚之间的乘客”(中国和澳大利亚之间的乘客)扮演“文物”的角色。我们观察到上述两个论点在单词“中国”(中国)上存在重叠,这对传统方法同时识别这两个论点更具挑战性,特别是对于那些是长名词短语。研究表明,在ACE 2005数据集中(Doddington等,2004)中,约有10%的事件存在角色重叠问题(Yang等,2019)。此外,事件提取的结果可能会影响许多其他NLP任务的有效性,如知识图的构建。如果事件中存在角色重叠问题,模型在预测任何一个论元或角色时都很准确,导致知识图构建信息的遗漏和不完整,显然与实际应用相去甚远。因此,角色重叠问题非常重要,需要认真解决。

因此,设计一个单一的架构来解决这个问题是很有吸引力的。尽管之前有研究提到了ACE 2005数据集上的角色重叠问题,但它们也有相同的局限性,包括依赖于复杂的工程特征(即手工制作的特征(He和Duan,2019)、依赖路径(Liu et al.,2018)等)。或遵循流水线化的方法(Yang等人,2019年)。

为了克服这些先前工作的问题,在本文中,我们提出了一个单一的框架来联合提取触发词和论元。受预训练语言模型的有效性启发,我们采用转换器的双向编码器表示(BERT)作为编码器,获得共享特征表示。具体来说,是触发词之间的关系(t),论元(a)和角色(r)被定义为事件关系三元组< t,r,一个>,其中r表示由t触发的事件中a对t的依赖关系。图1(b)的事件句可以用事件关系三元组表示,如<来往、(b)、Origin、中国>、<来往、<>、中国>、<来往、Origin、澳大利亚>、<来往、<>、<来往、Artifact、来往于中国和澳大利亚之间的乘客>。可以看出,事件关系三元组可以明确地描述这三个项之间的关系。本文的关键贡献是设计了一种新的联合提取框架,该框架结合所定义的事件关系,共同进行触发和论元提取。将论元分类的任务转换为关系提取。特别地,为了提取多个事件和关系三元组,我们使用多组二值分类器来确定跨度(每个跨度包括一个开始和一个结束)。该方法不仅解决了角色重叠问题,还解决了词触发不匹配和词边界问题。我们的框架避免了事件提取中的人类参与和复杂的工程特征,但比以前的工作产生了更好的性能。

本文的组织结构如下:第2节介绍了情感表达的相关工作。第3节介绍了我们处理角色重叠问题的方法。在第4节中,广泛使用的数据集ACE 2005上进行了广泛的实验来评估所提出的模型的有效性。此外,在实验中还采用了更严格的评价标准。结论和未来的工作见第5节。

2 相关工作

EE是一项引起人们广泛关注的重要任务。EE有两种主要范例: a)联合预测事件触发词和论元的方法,b)流水线方法首先识别触发词,然后在不同的阶段识别论元(Nguyen et al.,2016)。这种联合系统的优点有两个方面:(1)减少错误传播从上游组件(触发词提取)到下游分类器(论元提取),以及(2)受益于事件触发词和论元角色之间的相互依赖关系(Nguyen和Nguyen,2019)。严重依赖手工特征的传统方法很难在语言和注释标准之间转换(Chen和Ng,2012;廖和格里什曼,2010;Li et al.,2013)。基于神经网络的能够自动学习特征的方法(Chen等,2015;冯等,2016;阮等,2016;阮和格里什曼,2016;曾等,2016)已经取得了显著进展。他们中的大多数人都遵循了流水线化的方法。通过联合预测触发词和论元,已经取得了一些改进(Liu等人,2018;Nguyen等人,2016;阮和阮,2019),并引入更复杂的架构来捕获更大规模的上下文。这些方法在情感表达中取得了很好的效果。

不幸的是,角色重叠问题(He和Duan,2019;Yang et al.,2019),但文献研究很少。He和Duan(2019)利用CRF增强模型构建多任务学习,共同学习子事件。然而,他们的方法依赖于手工制作的特征和模式,这使得它们很难集成到最近的神经模型中。与我们的类似的工作是Yang等人(2019)采用的一种通过添加多组二值分类器来解决角色重叠问题的两阶段事件提取方法。但是这项工作需要分别检测受错误传播影响的触发词和论元。它不像我们在本工作中所做的那样使用共享特性表示。

近年来,预先训练的语言模型通过考虑上下文动态地捕获词汇语义信息。McCann等人(2017)将一个深度LSTM编码器从机器翻译的注意序列到序列模型进行预训练,以将单词向量上下文化。ELMo(从语言模型中嵌入)通过学习堆叠的双向LSTM(长短期记忆)的内部状态,改善了6个具有挑战性的NLP问题(Peters et al.,2018)。开放AIGPT(生成性预训练)提高了12个任务中的9个的最先进水平(Radford et al.,2018)。BERT在11个NLP任务上获得了新的最新的结果(Devlin等人,2018年)。

3 提取模型 

本节描述了我们设计用于提取在纯文本中发生的事件的方法。我们现在确定了我们的工作范围。论元提取的任务被定义为自动提取所定义的事件关系三元组。在我们的模型中,我们不是将实体提及视为由人类注释者提供的,而是只使用事件标签类型和论元角色类型作为触发词和论元提取的训练数据。

我们提出了一种基于联合多重汉语事件提取器(JMCEE)的预训练语言模型。s= {c1,c2,...,cn}注释句子,n为字符数,ci为第i个字符。给定事件关系的三元组E = {< t,r,a >},我们的框架的目标是共同执行触发提取T和论元提取a的任务:

(r,a)∈E|t表示一个论元,由t和l触发的事件三元组E中的角色对(r,a)表示事件标签类型。基于等式的(1),我们首先预测一个句子中所有可能的触发词及其标签类型;然后对于每个触发词,我们整合预测触发词的信息,通过同时预测所有可能的角色和论元,提取事件关系三重< t,r,a >,如图2所示。 

我们使用一个预先训练过的BERT编码器来学习一个句子中每个字符的表示,然后将其输入下游模块。我们的关节提取器的输入遵循BERT,即三种嵌入类型的总和,包括wordpipece嵌入、位置嵌入和片段嵌入。令牌[CLS]和[SEP]被放置在句子的开头和结尾。在BERT编码器的顶部添加了多组二元分类器,以实现对多个事件和关系三元组的预测。触发提取,我们需要预测事件类型的开始和结束ci∈s(l代表“其他”类型,即没有词触发任何事件)与每一组二进制分类器切断一个事件类型来确定所有触发词的开始和结束。

对于论元提取,我们需要根据预测的触发词(r)预测句子s中ci的角色类型r的开始和结束来提取事件关系三重<t,r,a>(r设置为“Other”如果没有单词触发任何事件),每一组二进制分类器为一个角色切断,以确定发挥它的所有论元的开始和结束。由于预测可以属于不同的论元和角色,因此可以解决角色重叠问题。此外,我们的JMCEE能够识别这些论点是长名词短语,如“来往于中国和澳大利亚之间的乘客”(在中国和澳大利亚之间旅行的乘客),它解决了在汉语中经常遇到的单词边界问题。与句子级序列建模方法相比,我们的方法也避免了在以往工作中捕获非常长期依赖关系的低效率。

3.1 触发词提取

触发词提取旨在预测令牌是类型标签l的触发词的开始还是结束。通过将一个标记ci输入到一个具有s型激活函数的全连接层中,它被预测为一个具有类型标签l的概率的触发词的开始:

 结束概率:

 其中,我们使用下标“s”表示“开始”,下标“e”表示“结束”。WT s和bT s分别是针对检测触发词标签起始的二分类器的可训练权值和偏差,而WT e和bT e分别是另一个针对检测触发词标签末端的二分类器的可训练权值和偏差。β是BERT的嵌入。将检测开始和结束的阈值设置为分别为阈值目标是检测触发词标签的开始和结束的二进制分类器。如果,则标记ci被标识为类型标签l的开始。如果,则标记ci被标识为类型标签l的结束

 3.2 论元抽取

一旦确定了触发词及其类型标签,我们将找到论元取组件。将三元组< t,r,a >的论元分类转换为事件关系提取。请注意,当句子被标识为“其他”类型时,我们只需跳过以下操作来提取论元角色。更好地学习多个事件之间的依赖出现在一个句子中,我们随机选择一个预测触发词在一个句子在训练阶段,而在评估阶段,所有预测触发词选择依次预测相应的论元和角色在触发事件。我们将预测的触发词的信息整合到论元提取组件中。在ACE语料库中,超过98.5%的触发词包含不超过3个字符,因此我们只需选择一个预测触发词t的开始和结束的嵌入向量,然后对这两个向量进行平均,生成触发词β(t)的表示。

当获得触发词β(t)的表示时,我们将由BERT和β(t)生成的原始嵌入添加在一起:

 

 将预测的触发词的信息整合到BERT句子编码后,将β‘(s)输入到一个具有s型激活函数的全连接层中。一个标记ck被预测为由单词t触发的论元的开始,它扮演的概率为r:

 

 而作为由单词t触发的结束点,其概率为:

 

其中,分别是目标是检测论元角色开始的二元分类器的可训练权值和偏差,而分别是检测论元角色结束的其他二元分类器的可训练权值。

 将检测起始和结束的阈值设置为,分别是目标检测触发词标签的起始和结束的二值分类器的阈值。如果,标记ck被标识为论元角色εr的开始。如果,标记ck被标识为论元角色r的结束。算法1用于检测每个令牌,以确定触发词、类型、论元和角色。

3.3 模型训练

我们对联合模型进行训练,并将LT定义为所有负责检测触发词的所有二值分类器的损失函数,如下所示:

 

LT表示所有在每个类型标签上检测触发词的开始和结束的二值分类器的输出概率的交叉熵的平均值。同样,我们将LA定义为所有负责检测事件关系三元组的二进制分类器的损失函数: 

其中,m表示事件标签类型和论元角色类型的总和。LA表示所有检测每个角色上论元的开始和结束的二进制分类器的输出概率的交叉熵的平均值。最终损失函数LE = LT + LA。我们最小化最终的损失函数,以优化模型的参数。

4 实验

5结论

在本文中,我们提出了一个简单而有效的联合中文多事件提取框架,该框架采用预先训练的BERT编码器,联合提取触发词和论元。我们在这项工作中的贡献如下:

1)事件关系三重被定义并纳入到我们的框架中,以学习事件触发词、论元和论元角色之间的相互依赖,从而解决角色重叠问题。

2)我们的框架通过使用多组二元分类器来确定跨度,在字符级范式中执行事件提取,这允许提取多个事件和关系三元组,并避免了汉语特定的问题,如单词触发不匹配和单词边界问题。

实验表明,我们的方法优于传统的方法。我们相信,我们提出的框架可以应用于许多其他的NLP任务,以利用提取过程中的内部成分结构,如实体关系提取。我们未来的工作将集中于数据生成,以丰富训练数据,并试图将我们的框架扩展到开放领域

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值