ACL 2023 What happens before and after Multi-Event Commonsense in Event Coreference Resolution

ACL |2023 What happens before and after: Multi-Event Commonsense in Event Coreference Resolution

1.摘要

  • 事件共指模型的目标:对真实世界的同一事件的事件指称进行聚类
  • 问题:最近的模型依赖于语境化的表示来识别词汇或语境相似的指称,然而模型通常无法利用常识进行推理,这对于解决词汇上有分歧的提及很有限。
  • 解决方法:提出了一个用时态常识推理来扩展事件指称的模型。给定一个包含多个事件的复杂句子,例如,“男人杀死了他的妻子并被逮捕”,在目标事件"被逮捕"的情况下,我们的模型会产生发生在目标事件之前的合理事件,例如"警察到达",以及发生在目标事件之后的合理事件,例如"他被判刑"。
  • 表现:将此类推理合并到现有的事件共指模型可以提高其性能,并分析了需要这种时间知识的共指。

2.前言

  • 跨文档事件共指消解的目标:确定跨一个或多个文档提及的各个事件是否指代同一件事。(比如开枪、枪击是否是同一事件)

  • 现有模型进行共指消解的方法:现有的系统使用语言模型来表示语境中的每个指称,并根据词汇和语境相似性训练得分去预测两个指称是否共指。

  • 虽然一些事件共指数据集(如ECB+)中的许多共指对在词汇和语境上相似,甚至共享同一个引理,但不同的共指指称带来了困难。[如:“花费”和“住院”在某种情况下共指,但在词汇上班不相似,并且这两个词也不经常使用在相同的上下文]

  • 本文所提出的模型概述:

    在本文中,我们通过以常识知识的形式提供额外的上下文来提高现有的跨文档事件共指系统解决这种具有挑战性的共指提及的能力。作者关注了两个时间常识关系:前与后(before and after,与目标事件前后发生的典型事件有关)。

  • 本文的贡献:

    • 开发了一个常识推理引擎,可以对这两种时间关系进行推理。即开发了一个考虑整个上下文的多事件常识模型,并且该模型能够为复杂句子中的每个目标事件生成单独的推理。
    • 将产生的推理纳入到跨文档事件共指系统的成对提及评分器中。对每个事件提及产生 前和后 的推理。然后,我们嵌入推论,要么将每个提及的推论嵌入到自己的推论中(跨内),要么将每个提及的推论嵌入到对方的推论中(跨间)。

3.背景

在该篇论文中,作者通过结合与事件相关的时态常识推理来提高跨文档共指消解系统的性能。

3.1 事件共指消解

事件共指通常与实体共指消解联合进行,涉及对人、地点和组织的共指消解。

  • 目标:旨在将指称同一事件的事件指称聚集在一起,以强调真实世界的发生。

  • 分类:

    • 跨文档(CD)共指消解目标:旨在解决整个文档语料库中的指称问题。

    • 单文档(WD)共指消解目标:只解决了单文档的提及问题。

  • 数据集:

    • 在本文中,作者使用了ECB +数据集,并将其作为共指消解( CD )的标准基准。

    • ECB+数据集:ECB +包含86个子话题,每个子话题都涉及一个具体的新闻事件。为了引入复杂性和困难性,每个子话题与另一个子话题高度相似,但又明显不同。ECB +包括实体指称和事件指称;然而,本文仅仅关注事件。
      在这里插入图片描述

  • 模型

    • 最近的CD事件共指的方法通常遵循如下图所述的体系结构
      在这里插入图片描述

    • 首先,从文档中抽取候选事件提及。其次,训练一个成对打分器,将每一对提及都归类为共指或非共指。最后,这些分数被用来形成不同的事件提及聚类,通常使用凝聚聚类。在这些组成步骤中,共指模型往往在其评分方法(也就是说,第二部分)中有所不同。

    • 早期方法:依赖于词法和句法特征(Yang et al., 2015; Choubey and Huang, 2017),或者使用语义角色来编码实体和事件之间的关系。

    • 20年,Meged et al. (2020)通过利用谓词复述资源来提高性能。

    • 21年,Lai et al . ( 2021 )纳入了从最先进的信息抽取系统中提取的实体、关系和事件。

    • 通常,当前最先进的模型往往依赖于用预训练的语言模型来为每个候选指称计算一个上下文表示,并将其作为成对评分器的输入(e.g. Yu et al., 2020; Zeng et al., 2020; Cattan et al., 2021a; Allaway et al., 2021).

    • 本文作者提出的模型是Cattan et al.( 2021a )提出的模型的增强

    • Cattan et al. (2021a) :ACL |2021 Cross-document coreference resolution over predicted mentions.

      • 以实体和事件共指消解为目标,并以端到端的方式执行提及抽取、成对评分和聚类(如上图)
      • 提及用来自RoBERTa (Liu et al., 2019)的上下文嵌入表示。
    • 本文作者选择基于Cattan et al ( 2021a )的模型的原因有如下两点:

      • 它是一个简单的模型,遵循上图中提出的标准方法。后来的方法依赖于层级表征( Yadav et al , 2021a)或话语连贯理论( Held et al , 2021)。
      • 它是基于RoBERTa的,比后继的基于更大的Longformer模型( Beltagy et al , 2020)的CDLM模型( Caciularu et al , 2021)更有效和更少的内存消耗。
    • Yadav et al( 2021a )在Cattan et al( 2021a )的基础上,提出了一种分层方法来表示聚类事件和实体提及的不确定性。

    • 最先进(SOTA)的跨文档共指模型是Caciularu et al ( 2021 ),它通过使用更大的上下文窗口来建模跨文本关系,以及Held et al ( 2021 ),它将语篇连贯理论应用于共指。

    • Caciularu et al ( 2021 ):EMNLP |2021 CDLM: Cross-document language modeling.

    • Held et al ( 2021 ):EMNLP |2021 Focus on what matters: Applying discourse coherence theory to cross document coreference.

3.2 以事件为中心的常识
  • ATOMIC知识库(由1.1 M个众包事件-关系-事件三元组组成,涉及事件参与者的原因、影响和心理状态。)
  • COMET(Bosselut et al. 2019):在ATOMIC知识库上微调的预训练语言模型。COMET在治疗聊天机器人、人物对话、比喻性语言解读与生成、句子的时间顺序等任务上表现出了很好的效果
  • COMET的变体:
    • Para COMET ( Gabriel et al , 2021a):改编COMET,在整个段落的上下文中生成句子级别的推理。
    • Visual COMET ( Park et al , 2020):为图像生成ATOMIC风格的推理
    • COMET ( Hwang et al , 2021)的更新版本扩展了关系库,并众包了更多的推论
3.3 LM-generated Data Augmentation(生成式语言模型的数据增强)
  • 在生成任务中使用大型预训练LM的成功,使得人们对使用此类模型为下游任务生成数据的兴趣日益浓厚。最近(2020)的工作通过在真实数据上微调预训练的LM来扩充数据集,然后生成new, silver-labelled实例
  • 在这本文中,作者用少量的人工监督来微调GPT - 3,以生成与事件相关的额外上下文数据。

4.方法

  • 方法架构:使用了与baseline(Cattan et al. (2021a))相同的聚类方法,但修改了成对评分器
    在这里插入图片描述

  • 本文作者目标:提高模型能力,以解决在词汇或者语境上不相似的指称对之间的共指,但其中一个指称可以使用常识知识和推理从另一个指称中推出来。因此,作者开发了一个常识推理机并使用它来增强成对打分器

4.1 多事件常识推理
  • 作者使用事件时间(之前和之后)方面的常识推理来增强成对打分器。即关注在目标事件之前或者之后可能发生的合理事件【如:受害者在住院后接受治疗】。

  • COMET和它的变体对本文任务生成推理是无效的,为此作者训练了一个新的多事件常识推理机。

  • 多事件常识推理机:给定一个包含多个事件的句子,以及一个目标事件(如住院),目标是生成目标事件在整个句子的语境中之前之后可能发生的事情。

  • 模型

    • 作者提出的推理机是基于GPT-3的。
      • 虽然GPT-3并不直接适用于事件共指任务,但经过大量预训练,GPT-3包含了丰富的事实性和常识性知识,本文作者的目标是利用这些知识生成以事件为中心的常识推理,而不需要进行大量的训练
  • 数据

    • 从ECB+训练集中的25个主题中选取了前4个事件,并为这100个事件众包注释

    • 给工作者呈现一个带有一个或多个事件的句子,要求他们描述目标事件发生前和发生后立即发生的事情。

      在这里插入图片描述

    • 一共产生了600条推论( 100 × 3 × 2 = 600)。并仔细审查了数据,删除了少数质量较差的推断(即不完整或不相关的句子,约占注释总数的5 %)。

  • 训练

    对收集到的推论进行了GPT - 3的微调。输入和输出格式如下:

    在这里插入图片描述

    多事件常识推理机的输入格式示例。Top:将一个训练实例输入到GPT - 3中,输入为(语境与事件),输出为(在推断前和推断后)。Bottom:仅输入(语境与事件)的测试算例。

在这里插入图片描述

  • 推理

    为了产生推论,作者使用上下文和事件提示微调后的GPT - 3模型。使用top - p解码(Holtzman et al., 2020)生成多达150个token,累积概率为p = 0.9。

在这里插入图片描述

4.2 推理增强型成对打分器
  • 整体架构:

    成对计分器的新添加说明。我们将每个文档输入到一个基于GPT - 3的多事件时序常识推理机中,该推理机输出在目标事件前后发生的合理事件(例如花费)。对于每个时间关系(即,前和后),嵌入相应的推理,并计算一个注意力加权向量。我们将提及表征 前 后 的向量串联起来,作为成对打分器的输入。

    f ( c t x s p e n t , c t x h o s p i t a l i z e d , c s s p e n t , c s h o s p i t a l i z e d ) f(ctx_{spent},ctx_{hospitalized},cs_{spent},cs_{hospitalized}) f(ctxspent,ctxhospitalized,csspent,cshospitalized)

    在这里插入图片描述

  • 指称 m i m_i mi的指称跨度表示:

    c t x i = [ x S T A R T ( i ) , x L A S T ( i ) , x ^ i , l i ] ctx_i=[x_{START(i)},x_{LAST(i)},\hat{x}_i,l_i] ctxi=[xSTART(i),xLAST(i),x^i,li]

    其中 x i x_i xi对应跨度中第 i i i 个token的RoBERTa (Liu et al., 2019)嵌入。每个提及表示为:第一个( $x_{ST ART ( i)} $)和最后一个( $x_{LAST ( i )} ) t o k e n 的串联;一个注意力加权的标记总和 )token的串联;一个注意力加权的标记总和 )token的串联;一个注意力加权的标记总和\hat{x}_i ;以及一个表示长度 ;以及一个表示长度 ;以及一个表示长度l_i$的特征向量。

  • 为了融入常识推理,作者使用推理机为每个前( b )和后( a )关系生成多达k = 5个推论: b 1 . . . b k , a 1 . . . a k b_1...b_k, a_1...a_k b1...bk,a1...ak

  • 关系向量的表示:

    • 计算每个推论的语境化表示,类似于上面的跨度表示

    • 将所有推论的语境化表示进行叠加

      A ⃗ i = [ c t x a 1 . . . c t x a k ] \vec{A}_i = [ctx_{a1}...ctx_{ak}] A i=[ctxa1...ctxak]【以after作为例子,before与其一样】

    • 将它们输入到一个单一的头注意力层,为后面的关系产生一个单一的注意力加权向量。

      c s s p e n t = [ A t t e n t i o n − w e i g h t e d b e f o r e v e c o t e r ; A t t e n t i o n − w e i g h t a f t e r v e c o t e r ] cs_{spent}=[ Attention-weighted before vecoter; Attention-weight after vecoter] csspent=[Attentionweightedbeforevecoter;Attentionweightaftervecoter]

  • 由于在成对评分器的语境下,有两个提及跨度 m i m_i mi m j m_j mj,并且分别对应的推理 后 表示为 A i A_i Ai A j A_j Aj实现了注意力机制的两种变体:

    • Intra-span(跨中)
      • 注意力介于提及跨度 m i m_i mi和相应的推理 A ⃗ i \vec{A}_i A i之间,查询向量q是指称跨度 c t x i ctx_{i} ctxi,关键字向量k是 后 向量的语境化表示 A ⃗ i \vec{A}_i A i
      • 该方法的思想是强调与给定提及最相关的推论,并提供额外的上下文
    • Inter-span(跨间)
      • 注意力介于提及跨度 m i m_i mi和另一提及 m j m_j mj背景产生的推理 A ⃗ j \vec{A}_j A j之间,查询向量q是指称跨度 c t x i ctx_{i} ctxi,关键字向量k是 后 向量的语境化表示 A ⃗ j \vec{A}_j A j
      • 该方法的目标是强调与其他指称相关的推论,并使词汇上不同的指称更接近
    • 在上面的两种方法中,都会对每个 before 和 after 产生一个注意力权重常识向量,然后将它们串联起来产生一个单个的常识向量 c s i = [ B ⃗ i , A ⃗ i ] cs_i = [\vec{B}_i,\vec{A}_i] csi=[B i,A i]
  • 因此,对提及 m i m_i mi m j m_j mj的成对计分器的输入是:

    g i , j = [ c t x i , c t x j , c s i , c s j ] g_{i,j}=[ctx_i,ctx_j,cs_i,cs_j] gi,j=[ctxi,ctxj,csi,csj]

  • 然后,来自成对评分器的评分被用于使用凝聚聚类(agglomerative clustering)对提及进行聚类,与(Cattan et al. 2021a )相同。凝聚聚类合并最相似的聚类对,直到它们的成对相似性得分低于预定的阈值。

5.实验

5.1 实现细节
  • 模型实现基于Cattan et al . ( 2021a )。
  • 由于作者使用黄金事件提及从多事件常识推理机生成推论,因此在训练和推理过程中,我们都对黄金提及上的共指管道进行训练和评估。
  • 测试:对GPT-3和共指系统在训练过程中没有出现的新的黄金提及进行评估。
  • 共指系统应该关注的是改进成对评分器,因为黄金提及在共指系统中是常见的做法。
  • 将baseline在黄金提及上重新运行,并于本文模型的两个变体进行比较(基于跨内和跨间的注意力)。
  • 采用15个不同的随机种子训练所有模型版本,并关注其平均性能。
  • 基于GPT-3的推理机:对通过OpenAI API访问的davinci技术模型进行了微调。
5.2 评价设置和度量
  • 主要度量指标是标准 C O N L L − F 1 CONLL-F_1 CONLLF1,它是三个度量指标 B 3 , M U C , C E A F C B^3,MUC,CEAF_C B3,MUC,CEAFC 的平均值

6 评价

  • 首先讨论了事件共指任务的结果
  • 然后讨论了本文提出的推理机生成的常识推理的有效性
  • 最后提出了消融实验
6.1 结果

在这里插入图片描述

  • 性能的提高表明时态常识推理有助于解决相当数量的共指。
  • 两个模型在所有指标上都提高了基线精度,其中跨中模型在所有指标上都达到了最高精度。
  • 对最好的模型(跨中)的误差分析表明,在某些情况下,当指称具有相似的(和可能的类属)推理时,该模型错误地将非共指提及作为共指提及。
  • 当一个指称的推断与另一个指称的推断在词汇上相似时,它会得到更多的关注,从而增加了假阳性错误的可能性。
6.2 人类对推论的评价
  • 给三个工作者呈现了一个句子和一个目标事件,和模型生成的前后推理。并询问关于推论的:
    • 可能性,即给定的推理在目标事件之前(之后)实际发生的频率;
    • 关于语境的相关性;
    • 关于目标事件推理的特异性。

在这里插入图片描述

6.3 消融实验

前面作者认为COMET对于有着多事件的复杂句子是不够准确的,所以为了收集证据,作者将基于GPT-3的常识推理机替换为COMET,并重新训练事件共指模型。

  • 使用最新的COMET版本( Hwang et al , 2021),结合beam search对每种关系类型(前/后)的前5个推论进行解码,并根据模型的置信度进行排序。

为了证明微调GPT - 3的合理性,将多事件常识推理机替换成模型的少样本版本。

在这里插入图片描述

7.分析

7.1 注意力得分

下图给出了一个提及对(drunken driving、DUI)被基线错误预测为非共指提及,而被跨内模型正确预测为共指提及的例子。每个提及的推论根据其对应的注意力权重进行排序和突显。

在这里插入图片描述

下图给出了一个例子,被基线错误预测为非共指提及,被跨间模型预测为共指提及。

在这里插入图片描述

7.2 误差分析

分析本文提出的模型的最佳版本( intra-span )中的误差。

  • 该模型产生的误差中有95 %与基线产生的误差有重叠,仅有5 %是新引入的。

在这里插入图片描述

  • 结构缺陷:相似或相同的提及可以指不同的事件,基线模型以及本文提出的方法的推论,没有明确地包含任何语言结构,这导致了这些错误。
  • 类属推论:生成的常识推理相对于目标事件来说不够具体。这导致两个假阳性错误:
    • 一对非共指指称具有相似的类属推论
    • 假阴性错误,当共指指称有不同的类属推论时。
  • 知识不足:推理与目标事件相关,但并不包含解决这些共指所需的全部知识。
  • 合并:推论和注意分数是准确的,但模型在合并过程中并没有有效地使用它们。
  • 注意力:模型要么关注过多没有必要的推论,要么忽略重要的推论。

8.结论

本文考察了在事件共指消解任务中注入时间常识性知识的效果。通过使用我们的常识模型生成的特定事件推论,我们提高了基线模型的性能。我们的分析表明,成对计分器关注有利于解决具有挑战性的共指的推论。未来,我们计划将多事件常识模型扩展到额外的关系,并将此类知识融入到其他话语任务中。

9.局限性

9.1 数据
  • ECB+存在注释错误。
  • 在验证集上对共指关系对的分析显示,只有11 %的共指关系对是上下文无关的(余弦相似度在0.9以下),这表明常识可能只对这些情况产生影响。
9.2 模型
  • 常识模型的准确性主要受限于GPT - 3推论的准确性。
  • GPT - 3在19.3 %的情况下产生了对目标事件不够具体的推断,从而降低了性能。
  • 目标是在未来的工作中通过构建一个更健壮的多事件常识引擎来解决这个问题。我们的模型没有处理的另一个错误是语义角色。
9.3 评估
  • 由于我们的常识引擎是用黄金事件指称来训练的,我们也使用黄金事件指称来评估共指模型。
  • 使用预测指称代替黄金指称将对事件共指系统的性能提供更真实的估计。
    下),这表明常识可能只对这些情况产生影响。
  • 20
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值