DOCUMENT-LEVEL EVENT EXTRACTION VIA HUMAN-LIKE READING PROCESS(2022)论文笔记

DEE面临的挑战

分散参数、多事件

思想

通常,人类的阅读过程涉及三个阶段:预读、仔细阅读和后读。在预读过程中,人类读者预览整个文档,形成对文档内容的总体认知。在仔细阅读过程中,人类读者会仔细阅读每个句子,以根据其特定的阅读目的定位详细信息。在阅读后,对文档进行审查,检查遗漏的细节并完成对文档的理解。多阶段阅读过程从粗略到精细地理解文档,这使得在整个文档中提取事件事实变得有效。

模型(HRE)

将人类阅读方式分为两个阶段:粗读和精度。粗读用来检测事件发生,精读用来提取参数。具体来说,精读定位每一个角色的论元在哪个句子中,将参数提取并用memory mechanism存储,该机制对多事件之间的相互依赖关系进行建模并使HRE能够了解先前提取的事件。在获得一个完整的事件记录后,再次粗读检查相同事件类型的缺失事件,并且能够检测到与先前提取的事件有没有冗余。如果检测到另一个事件,将再次精细读取,否则,HRE将按照上述的逻辑处理下一个事件类型,直到所有。通过memory mechanism建模多个事件之间的相互依赖关系,多轮粗读探索释放了多事件挑战。同时,对于每个事件角色,精读会分别搜索特定于参数的句子,在这里可以找到跨句子的参数,并自然处理分散的参数问题
【注:】

  • 内存机制被设计在两个读取阶段中工作,
  • 使用事件类型特定的embedding ‘e’ 初始化记忆tensor ‘m
  • m’ 通过附加提取的事件参数进行更新
  • m’ 对事件之间的相互依赖进行建模
  • 粗阅读能够区分缺失事件和事件类型

基本编码

给一个document D 有N 个sentences ,基本编码包括为字符,句子,文档生成上下文表示三步:

1, 每个句子 Sj 分别采用 Sentence-Encoder,得到每个句子中的字符表示为 Sj = [cj,1, cj,2, …, cj,n],
2, 对每个句子 Sj 应用最大池化以获得原始句子表示 sr j,通过Document-Encoder 获得文档感知句子表示s = [s1, s2, …, sN]
3, 对s 使用过最大池化,获得文档表示 D

粗读

使用Memory-Encoder)对memory tensorm’进行编码使信息流链接事件和完善之前的事件类型
在这里插入图片描述
当粗阅读第一次一道e-type 事件,me仅包含初始的事件类型(event-type)embedding e ,当检测到一个缺失事件时,me包括e 和提取的事件角色表示lm。

我们从文档中删除有关先前事件的信息,并计算文档中未提取的e-type事件发生的概率pe,如下所示:
where D ∈ Rd and ˆD ∈ Rd 分别的源文档和文档冗余感知表示,如果pe大于预定义的阈值,则HRE会感知一个e型未提取的事件,然后利用详细的读数来提取参数,否则,HRE会移动以处理下一个事件类型。
在训练期间,使用对 pe 的二元交叉熵损失来教授粗略阅读以检测事件发生。 由于多次使用粗读,将每次粗读的所有这些损失加起来为 Lrr。

精读

在 HRE 检测到一个 e-type 事件的发生后,精读工作以按照预定义的事件角色顺序逐一提取具体的事件参数 ,对于每个事件角色,构造一个查询,该查询细化当前事件角色和先前提取的参数之间的相互依赖关系,以阐明阅读目标。具体来说,我们利用 Memory-Encoder 将先前的参数上下文注入到角色嵌入中,如下所示:
在这里插入图片描述
在这里插入图片描述

[ ; ]是串联操作,rie 是e型事件的第i个角色的可训练的特定角色嵌入, ¯rie ∈ R1×d作为当前角色的查询
在这里插入图片描述

句子定位模块

定位目标参数所在的句子。共享相同事件角色的参数在某种程度上在语义上相似,因此,我们首先过滤关于先前提取参数的信息,如下所示:在这里插入图片描述
ˆme是Eq.1相同的记忆存储,g为闸门控制信息冗余
在这里插入图片描述
ˆs是对于文档的所有句子的句子冗余感知表示,zs是由标度点积计算的每个句子的相关性得分,选择得分最高的句子进行相应的参数提取。使用对 zs 的交叉熵损失来指导句子位置,以正确句子索引作为标签。 在一个文档中,我们将每个句子位置的所有此类损失汇总为 Lsl。

参数提取模块

参数提取模块旨在提取特定事件参数并更新memory tensor 。对于事件角色,假设HRE决定从第j句中提取参数,则进行一些初步操作作为准备。首先,将查询嵌入ri e添加到每个字符表示cj,k,用事件相关知识丰富句子。然后,将符号 “[STOP]” (表示为相应的角色嵌入ri e) 附加到句子中以表示提取结束。这两个操作可以表述为:
在这里插入图片描述
参数是通过一系列字符复制操作从 ^Sj 中提取的,
在这里插入图片描述
第k个字符在第j 个句子中被复制,v0 被初始化为查询表示 ¯ri e 以定位目标参数的第一个字符,并且在每个时间步 t 中,复制得分最高的字符并将其用作 vt+1,在复制“[STOP]”之前,复制操作不会结束。假设复制字符 cj,k, cj,k+1 , cj,k+2 和“[STOP]”,对有效标记应用最大池化以导出参数表示 argri e ∈ Rd 为:在这里插入图片描述
在训练中,使用通过损失熵接近AttnScore(vt , ^Sj)去指导字符参数复制过程,在每个时间步 t 中,使用正确参数字符索引作为标签。 我们将每个文档中的所有字符复制损失加起来为 Lae。

Memory 更新模块

将每个提取的参数附加到memory tensor me 中,使每个阅读阶段都知道先前提取的参数。 由于单个实体的语义可能很少见,融合实体和相应的句子表示来更新记忆,如下所示:
在这里插入图片描述
更新的memory tensor me∈ R(lm+2)×d包含lm+1个参数,将在下一个读取阶段使用。

训练目标

We sum losses from rough reading, sentence location and argument
extraction in elaborate reading as Lall = λ1Lrr + λ2Lsl + λ3Lae
and jointly optimize them. λ1=1.0, λ2=1.0 and λ3=0.9 are coeffi-
cients to balance different sub-tasks.

实验

数据

Zheng et al.(2019)发布的迄今为止最大的DEE数据集,该数据集包含32040个文档,其中注释了五种事件类型:股权冻结(EF)、股权回购(ER)、股权减持(EU)、股权增持(EO)和股权质押(EP)。在这里插入图片描述
ArgSpan的性能最差,推断其原因是,与参数链接任务相比,DEE中的散乱参数没有指定特定的句子窗口范围,因此基于span枚举的方法产生的无效span压倒了模型。

为了衡量HRE在分散论点问题中的表现,我们首先计算每个文档中一个事件记录涉及的平均句子数,然后将测试集中的文档分别划分为五组,他们的表现都随着论点分散的句子数量的增加而下降,但HRE始终保持其优势。我们贡献了HRE如此出色的精细阅读能力,它为每个参数提取明确地建模了句间(Eq.5)和句内(Eq.7)语义,增强了HRE处理分散参数的能力。

消融实验

在这里插入图片描述

  • 删除等式(2)中的内存探索会导致最差的性能,因为HRE总是确定有缺失的事件,并检测先前从文档中提取的事件。
  • 当句子定位是在原始句子表征而不是冗余感知表征上进行时,F1的结果下降了1.9%。这证实了删除冗余信息的必要性。
  • 由于消融对F1造成了2.4%的伤害,因此该查询是必不可少的,它可以细化先前事件之间的相互依赖关系。
  • 在不将查询添加到字符表示中的情况下,结果降级显示了事件相关信息在参数提取中的重要性。

我们将推理速度(即模型在推理过程中每秒可以处理的文档数)计算为时间计算成本。具体而言,HRE的推理速度为5.9Docs/s,而Doc2EDAG的推理速度为7.2Docs/s。(2)我们利用模型参数的数量来表示空间计算成本。具体而言,HRE的参数量为75.0M,Doc2EDAG的参数量为66.8M。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值