文档级少样本事件论元抽取（ACL2023）

Ly大可爱

已于 2023-12-20 09:58:47 修改

阅读量985

点赞数 21

分类专栏： NLP事件抽取文章标签：人工智能算法机器学习

于 2023-12-14 22:44:07 首次发布

本文链接：https://blog.csdn.net/weixin_45785795/article/details/134999914

版权

NLP事件抽取专栏收录该内容

13 篇文章 3 订阅

订阅专栏

Few-Shot Document-Level Event Argument Extraction

一、写作动机：

文档级别的事件论元抽取的研究很少，而且先前的研究通常假设对丰富的文档监督有充分的访问权限，忽略了可用的论元标注通常是有限的这一事实。为填补这一空白，作者提出了FewDocAE，一个基于现有文档级事件提取数据集的少样本文档级事件论元提取基准。

二、本文贡献：

首次引入了少样本文档级事件论元提取，将监督文档级EAE大大扩展到少样本情景。
重构了一个现实的FewDocAE数据集，配合一个新的少样本抽样算法N-Way-D-Doc抽样。
进行了全面的实验证明，提供了基准结果，并发现这些任务非常具有挑战性，值得进一步研究。

三、任务定义：

1、论元提取定义：

给定文档D = {w1，...，w|D|}及其对应的事件类型e，其中|D|是单词的总数，事件论元提取旨在根据事件论元类型Re在文档D中检测所有可能的连续跨度{wstart，wend}的边界和类型。

2、文档级少样本论元提取定义：

给定事件实例e，其关联的论元类型集Re，支持集S和查询集Q，少样本任务T定义如下：

S = {..., Rs i , ...}，Rs i = (Ds i , {..., (bs i , ts i ), ...})

Q = {..., Rq i , ...}，Rq i = (Dq i , {..., (bq i , tq i ), ...})

T = {S, Q}

其中（bi，ti）表示支持集S和查询集Q中文档Di中第i个事件论元的边界和类型。Rsi/Rqi是Di中所有标注的论元的集合，S/Q是来自不同文档的Rsi/Rqi的组合。任务T是一个目标，旨在给定S预测Q中的所有实例。

N-Way-D-Doc:N种论元类型，D个文档。

3、领域划分：

作者这要考虑了3种情景：同领域情境、更小型和基础的同领域情境、交叉领域情境。

四、构建少样本任务：

1、选用数据集：DocEE数据集，包含31个硬新闻事件类型和28个软新闻事件类型及其相应的论元。

2、领域划分情况：

3、采样策略：

N-Way-D-Doc采样，如Algorithm 1所示，以确保D个文档中有N个类别的固定数量。在作者的方法中，首先选择N个事件论元类型，然后随机采样D个文档，并保持D个文档中所有N个类型的论元不变，而舍弃其他论元类型。这个过程一直持续到D个文档中确切地有N个类别。

4、采样结果：

五、模型架构：

1、文档编码器：采用Bert或者LongFormer作为文档编码器。形式上，假设文档D = {w1, ..., w|D|}，其中wi表示第i个标记，|D|是最大长度。通过将标记输入文档编码器，得到上下文标记表示：[h1, ..., h|D|] = Encoder([w1, ..., w|D|]) 。

2、原型网络方法：假定每个论元类别都存在一个原型表示，并学习了一个度量空间，其中通过标记每个查询术语的值来执行分类，该值是从与其最接近的原型表示之间的距离计算得到的。在实践中，使用每个论元中所有标记的平均表示来表示该论元类型的上下文表示。

3、最近邻标签器（NNShot）：是一种基于token级最近邻分类的简单但强大的系统，用于少样本序列标记器任务。它首先获取各自文档中所有标记的上下文表示。然后，它将标记q分配给与支持集中最相似的标记对应的ri，其中ri表示第i个论元原型。

4、K-means MNAV:对所有NOTA表示进行K-means聚类，其中K被设置为超参数。然后对于基于ProtoNet的模型，仍然通过计算它们的标记相似性来确定标签类型。将所有最接近K个NOTA矢量的标记归因为NOTA类型。

六、实验结果：

1、在三个N Way-D-Doc设置下，ProtoNet-Longformer模型始终比ProtoNet-BERT表现更好，差距很大。一方面，这种差距可以通过LongFormer对长文档的卓越编码能力来解释。另一方面，结果证明了我们通过将文档级别的论点提取扩展到跨句提取的动机，因为根据在监督条件下的证实，大部分论点只能在句子之间提取。

2、还观察到从In domain (base)到In domain (small)的大多数结果中有显着的性能下降，这清晰地表明了使用更广泛的事件类型进行训练的好处。

3、随着N和D的增加，总体结果不断增加，表明具有更多Ways和Docs的实例更容易预测。

4、ProtoNet-MNAV并没有如预期那样带来性能提升，可能是由于决策边界更加不清晰。

5、交叉领域情境下，与其In domain (base)对应项相比，在ProtoNet-Longformer和ProtoNet-BERT模型下都观察到了性能下降。

Ly大可爱

关注

21
点赞
踩
26

收藏

觉得还不错? 一键收藏
1
评论
文档级少样本事件论元抽取（ACL2023）

1、论元提取定义：给定文档D = {w1，...，w|D|}及其对应的事件类型e，其中|D|是单词的总数，事件论元提取旨在根据事件论元类型Re在文档D中检测所有可能的连续跨度{wstart，wend}的边界和类型。2、文档级少样本论元提取定义：给定事件实例e，其关联的论元类型集Re，支持集S和查询集Q，少样本任务T定义如下：T = {S, Q}其中（bi，ti）表示支持集S和查询集Q中文档Di中第i个事件论元的边界和类型。
复制链接

扫一扫