【论文阅读笔记|EMNLP2023】DemoSG: Demonstration-enhanced Schema-guided Generation for Low-resource Event Ext

Rose sait

已于 2024-01-08 16:46:14 修改

阅读量1.2k

点赞数 19

文章标签：论文阅读笔记

于 2024-01-04 21:49:47 首次发布

本文链接：https://blog.csdn.net/weixin_46025824/article/details/135373092

版权

论文题目：DemoSG: Demonstration-enhanced Schema-guided Generation for Low-resource Event Extraction

论文来源：EMNLP2023

论文链接：2023.findings-emnlp.121.pdf (aclanthology.org)

代码链接：https://github.com/GangZhao98/DemoSG

0 摘要

当前大多数事件抽取（EE）方法都专注于高资源场景，这需要大量的带注释数据，难以应用于低资源领域。为了更有效地应对有限资源下的EE问题，我们提出了增强演示引导生成（DemoSG）模型，它从两个方面为低资源EE提供了帮助：首先，我们提出了基于演示的EE学习范式，充分利用带注释的数据，将其转化为演示来展示提取过程，并帮助模型有效学习。其次，我们将EE作为一个由基于模式的提示引导的自然语言生成任务来进行建模，从而利用标签语义并促进低资源场景中的知识转移。我们在三个数据集上进行了大量实验，涵盖了领域内和领域适应的低资源设置，并研究了DemoSG的鲁棒性。结果显示，在低资源场景下，DemoSG明显优于当前方法。

1 引言

事件抽取（Event Extraction，EE）的目标是从非结构化文本中提取事件记录，这些记录通常包括指示事件发生的触发词和多个预定义角色的论元。例如，图1中显示的文本描述了两个记录，分别对应于“Transport”和“Meet”事件。其中，“Transport”记录由单词“arrived”触发，并包含3个论元：“Kelly”，“Beijing”和“Seoul”。类似地，“Meet”记录由“brief”触发，并具有两个论元：“Kelly”和“Yoon”。事件抽取在自然语言处理中起着关键作用，因为它为各种下游任务提供了有价值的信息，包括知识图谱构建（Zhang等，2020）和问答系统（Han等，2021）。

大多数研究主要集中在高资源情景，这需要大量的注释训练数据才能达到满意的表现。然而，事件注释是一个昂贵且劳动密集型的过程，这使得这些方法在注释数据有限的域中应用具有挑战性。因此，越来越需要在以缺乏训练例子为特征的低资源场景中探索EE，这已经引起了最近的关注。

Lu等人（2021）将EE建模为一个统一的序列到结构的生成，促进了事件检测和论元提取子任务之间的知识共享。在Lu等人（2021年）的基础上，Lu等人（2022年）在大规模数据集上引入了各种预训练策略，以增强结构生成和提高低资源的EE性能。Hsu等人（2022年）通过手动为每种事件类型设计一个提示符，纳入了补充信息，包括事件描述和角色关系。

然而，尽管现有方法有效，它们仍存在一定的不足之处：1）序列到结构生成忽略了下游结构生成与预训练自然语言生成之间的差距。2）大规模预训练需要大量的计算资源和过多的语料库。3）精细提示的手动设计仍需要相当大的人力投入，并且事件抽取的性能对提示的设计非常敏感。

在本文中，为了更有效地处理有限资源下的事件抽取（EE），我们提出了增强演示的模式引导生成（DemoSG）模型，从两个方面受益：1）提高使用标注数据的效率。2）增强跨不同事件之间的知识转移。

为了充分利用标注的训练数据，我们不仅将它们视为模型学习的信号，还将它们视为任务演示来向模型说明抽取过程。具体而言，如图1所示，DemoSG为每个事件选择一个合适的训练样本，将其转换为自然语言风格的演示，并将演示与输入文本一起整合，以增强抽取效果。我们将这种范式称为基于演示的EE学习，它从GPT系列（Ouyang等，2022）的上下文学习中汲取了灵感。为了识别适当的示例进行演示，我们设计了几种选择策略，可分类为两组：1）面向演示的选择，旨在选择具有最佳演示特征的示例。2）面向实例的检索，旨在找到与输入句子最相似的示例。通过演示的增强，DemoSG可以更好地理解EE过程，并仅使用少量的训练样本有效地进行学习。

为了进一步增强知识转移能力并提高演示的有效性，我们利用标签语义信息，通过基于模式的提示将EE转化为seq2seq生成任务。具体而言，DemoSG为每个事件创建一个形式上类似于演示的提示，其中包含事件模式中指定的事件类型和角色。然后，将提示和增强演示的句子一起输入预训练语言模型（PLM），生成描述事件记录的自然语句。最后，DemoSG使用基于规则的解码算法从生成的句子中解码记录。DemoSG的模式引导序列生成以多种方式促进知识转移：首先，利用标签语义有助于在不同事件之间进行抽取和知识转移。例如，“目的地”角色的语义暗示其参数通常是一个地点，“攻击者”和“裁判员”之间的相似性使得在它们之间传递参数抽取知识变得容易，因为它们都指示给人类。其次，自然语言生成与PLM的预训练任务一致，消除了结构生成方法过度预训练的需要（Lu等，2021, 2022）。此外，与预定义类别约束的分类方法不同，DemoSG更灵活，可以通过演示来适应新事件，无需进一步微调，这被称为无参数域适应能力。

我们的贡献可以总结如下：

1）我们提出了一种基于演示的EE学习范式，它可以自动创建演示来帮助理解EE过程，并仅使用少量的训练样本有效地进行学习。
2）我们将EE转化为基于模式的自然语言生成任务，利用事件标签的语义信息，在低资源情况下促进知识转移。
3）我们在三个数据集上进行了广泛的实验，研究了DemoSG的鲁棒性，结果表明，在低资源场景中，DemoSG明显优于之前的方法。

2 相关工作

低资源事件抽取

大部分之前的事件抽取方法都侧重于高资源场景，这使得它们很难应用于标注数据有限的新领域。因此，低资源事件抽取近年来开始引起人们的关注。

Lu等人（2021年）将事件抽取建模为一个统一的序列到结构生成问题，从而在事件检测和论元抽取子任务之间共享知识。然而，下游的结构生成与预训练的自然语言生成之间的差距尚未得到考虑。
基于Lu等人（2021年）的工作，Lu等人（2022年）在大规模数据集上提出了几种预训练策略，提升了结构生成并改善了低资源事件抽取的性能。然而，大规模预训练需要大量的计算资源和冗余语料。
Hsu等人（2022年）通过手动设计每个事件类型的提示信息，引入了额外的信息，其中包含事件的描述和角色之间的关系。然而，设计这样精细的提示仍然需要相当多的人力，并且事件抽取性能对设计非常敏感。
Lou等人（2023年）提出了统一的token链接操作，以提高知识传递能力。由于他们的代码和数据采样细节不可用，我们将将比较留给未来的研究。

基于示范学习

这个想法最初受到了GPT3（Brown等，2020年）在上下文学习能力方面的启发，其中模型只通过示范进行学习而不进行调整。然而，上下文学习依赖于巨大的预训练语言模型的规模。为了使小型预训练语言模型中的示范有效，

Lee等人（2022年）提出了一种基于示范的NER学习框架，该框架将示范作为额外的上下文信息，用于训练序列标注模型。
Zhang等人（2022年）进一步研究了基于示范学习在NER序列标注范式中的鲁棒性。

我们的方法与这些研究不同之处在于：1）我们的增强示范学习范式根据事件抽取的特定特征进行设计。2）我们的生成框架增强了示范学习的灵活性，为其提供了无参数领域自适应能力。

3 模型

在本节中，我们首先在第3.1节阐述了一些低资源EE的基本概念。接下来，在第3.2节中介绍了提出的演示增强模式引导生成模型。最后，在第3.3节中提供了有关训练和推理过程的详细信息。

3.1 低资源事件抽取

给定输入句子，事件抽取任务的目的是提取一组事件记录，其中Rj包含一个触发词Tj和几个论元。每个Tj或Ajk对应于模式S中预定义的事件类型Ej或事件角色Ojk。本文考虑了两种低资源的EE场景：

在领域内低资源场景

主要挑战是训练样本数量非常有限。考虑完整的训练数据集，其中包含了模式Sh，以及子集Dl，其中Sl ⊂ Sh，目标是在的情况下充分利用有限的数据，在Dl上训练出高性能的模型。领域内低资源场景对EE模型的数据利用效率提出了挑战。

域自适应场景

域自适应场景是指目标域缺乏示例，但有大量源域示例的情况。给定两个子集Dsrc和Dtgt，其中，我们的目标是首先在Dsrc上预训练一个源域模型，然后在目标域子集Dtgt上实现高性能。领域自适应使低资源领域能够利用从被充分研究的领域获得的知识，这需要EE模型具有很强的知识传递能力。

3.2 事件抽取的演示增强模式引导生成

我们提出了一个端到端模型DemoSG，它利用基于演示的学习和模式引导的生成来解决上述的低资源场景。如图2所示，DemoSG首先为每种事件类型构造任务演示和提示，然后使用序列到序列的网络来生成描述事件记录的自然句子。

3.2.1事件记录的统一序列表示

为了将事件抽取建模为一个序列到序列的生成任务，我们设计了一个统一的表示模板，将事件记录转换为包含事件触发词、论元以及它们对应事件角色的明确自然语句。

详细地说，给定一个记录R与触发T和几个论元，其中每个Ai对应角色Oi，DemoSG将R转移到一个序列被设计为“Event trigger is T . O1 is A1 O2 is A2...”。没有任何论元的角色填充标记为“None”。例如，图2中的Transport事件表示为 “Event trigger is arrived. Artifact is Kelly. Origin is Beijing. Destination is Seoul. Vehicle is None..."。我们还考虑了以下特殊情况：相同事件类型的多个记录可以通过连接各自的序列表示来表示。与同一角色对应的多个论元将通过“&”合并在一起，例如“Artifact is Kelly & Yoon”。由于DemoSG分别提取了每种类型的事件，因此记录表示不再需要事件类型，这减轻了模型预测的压力。

3.2.2 事件演示构建

为了有效地利用有限的训练示例，我们不仅将它们视为传统的监督学习信号，而且还将它们转换为事件演示，从而带来额外的信息，有助于理解提取过程。

事件类型Ei的演示Di是一个包含上下文部分和注释部分的自然语句，它是通过以下步骤构建的：

DemoSG从训练集Dtrain中选择或检索一个包含Ei记录的示例(Xi，Ri)。
DemoSG根据第3.2.1节中的记录表示模板将与Ei相关的记录转换为注释句Yi。需要注意的是，我们对演示和模型预测都采用统一的记录模板，以促进它们之间的协同交互。
演示Di通过连接上下文部分Xi和注释部分Yi构建而成。

考虑到选择适当的示例对于构建演示的重要性，我们提出了几种选择策略，可以分为两组：

演示导向的选择旨在选择具有最佳演示特性的示例。具体而言，与更多事件角色相关的训练样本往往包含提取此类事件所需的更多信息。而具有更长文本的示例可能为提取相同事件提供更多的上下文信息。基于这些考虑，我们提出了两种选择策略：1）丰富角色策略选择每个事件关联角色数量最多的示例；2）丰富上下文策略选择每个事件上下文最长的示例。

实例导向的检索侧重于检索与输入句子最语义相似的示例，因为语义相似性可以增强演示的有效性。具体而言，相似策略涉及使用SBERT对输入句子X和每个示例句子Xi进行编码，然后计算它们的[CLS]嵌入之间的余弦相似度来对Xi进行排名。最后，相似策略检索每个事件类型的排名靠前的示例来构建其演示。

3.2.3 基于模式的提示构建（Schema-based Prompt Construction）

我们为DemoSG设计了一个提示模板，以利用基于事件模式的语义信息和角色。给定事件模式，其中Ei是事件类型，是事件角色，Ei的提示被设计为：“Event type is Ei . Event trigger is <Mask>. Oi1 is <Mask>. Oi2 is <Mask>...”，其中<Mask>表示PLM的掩码标记。例如，上述运输事件的提示可以构建为“Event type is Transport. Event trigger is <Mask>. Artifact is <Mask>. Origin is <Mask>...”。利用标签的语义信息不仅有助于查询相关的触发器和参数，而且还有助于不同事件之间的知识传递。

3.2.4事件抽取的增强序列到序列生成（Enhanced Sequence-to-sequence Generation for Event Extraction）

如图2所示，DemoSG通过各自的事件演示和提示增强的每个事件类型的公共架构分别生成每个事件类型的记录序列。给定一个输入句子，DemoSG首先为事件类型Ei构造事件演示和基于模式的提示。然后，DemoSG通过“<SEP>”连接Di、X和Pi，并使用transformer编码器获得演示增强的隐层表示：

DemoSG逐个标记地解码增强表示Hi，并生成事件记录序列。

其中解码器（·）表示transformer解码器，hij是第j步的解码器状态。通过对所有事件类型迭代上述生成过程，DemoSG最终得到完整的记录序列集。

3.3 训练和推理

由于DemoSG为每个事件类型单独生成记录，我们将为标注的事件类型生成的句子视为正例，而为未标注的事件类型生成的句子视为负例。

在训练阶段，我们会对负例进行m倍于正例数量的采样，其中m是一个超参数。训练时使用以下负对数似然损失函数进行优化：

其中θ表示模型参数，Dtrain是训练集，S是事件模式，DP和DN是正集和采样的负集。

在推理阶段，DemoSG通过基于规则的确定性算法从生成的中解码事件记录，并使用字符串匹配来获取事件触发词和论元的偏移量。根据Lu等人（2021）的方法，在句子中多次出现预测字符串时，我们选择所有匹配的偏移量进行触发词预测，并选择与预测触发词最接近的匹配偏移量进行论元抽取。

4 实验

为了评估DemoSG的有效性，我们在领域内低资源、领域适应和高资源设置下进行了全面的实验。我们进行了消融研究，以探索每个模块的影响和所取得的改进。此外，我们还研究了应用DemoSG演示的鲁棒性。

4.1 实验设置

数据集

我们在两个广泛使用的事件抽取基准数据集上评估我们的方法：ACE05-EN（Wadden et al., 2019）和ACE05-EN+（Lin et al., 2020）。它们都包含33个事件类型和22个事件角色，源自ACE2005（Doddington et al., 2004b）这个提供了英语实体、关系和事件丰富注释的数据集。对于这两个基准数据集，完整的数据划分和预处理步骤与先前的研究一致（Wadden et al., 2019; Lin et al., 2020）。此外，对于低资源设置，我们采用了与UIE（Lu et al., 2022）相同的数据采样策略。数据集的详细统计数据如表1所示。

评价指标

我们使用了与之前的事件抽取研究相同的评估指标（Wadden等人，2019; Lin等人，2020; Lu等人，2021, 2022）：

1）触发词分类微平均F1分数（Trig-C）：如果触发词的偏移量和事件类型与黄金标签对齐，则正确分类触发词。

2）论元分类微平均F1分数（Arg-C）：如果论元的事件类型、偏移量和事件角色都与黄金标签匹配，则正确分类论元。

基线

在低资源情况下，我们将我们的方法与以下基线进行比较：

OneIE（Lin等人，2020），当前的高资源最优方法，使用全局特征提取全局最优事件记录。
Text2Event（Lu等人，2021），将事件检测和参数提取整合到一个统一的结构生成任务中。
UIE（Lu等人，2022），通过基于Text2Event的各种预训练策略来提高低资源性能。
DEGREE（Hsu等人，2022），通过手动设计每个事件类型的提示信息，融合了额外的信息。

对于高资源实验，我们还与以下方法进行比较：

DY-GIE++（Wadden等人，2019），这是一个基于BERT的分类模型，利用了跨度图传播。
Joint3EE（Nguyen和Nguyen，2019），它基于共享表示联合提取实体、触发词和参数。
GAIL（Zhang等人，2019），这是一个基于逆强化学习的联合实体和事件抽取模型。
EEQA（Du和Cardie，2020b）和MQAEE（Li等人，2020），它们将事件抽取形式化为使用机器阅读理解模型的问题回答问题。
TANL（Paolini等人，2021），它将事件抽取形式化为增强自然语言之间的翻译任务。

4.2 域内资源不足的场景

为了验证DemoSG在领域内低资源情景中的有效性，我们按照Lu等人（2022）的方法，在几个少样本和数据有限的设置下进行了广泛的实验。对于少样本实验，我们从原始训练集中随机抽取每种事件类型的2/5/10个示例，而保持开发集和测试集不变。对于数据有限的实验，我们直接从原始训练集中抽取2%/5%/10%用于模型训练。与少样本设置相比，数据有限的设置具有不平衡的数据分布和零样本情况，给EE方法的泛化能力带来挑战。表2展示了领域内低资源实验的结果。我们可以观察到：

1）在领域内低资源情境下，DemoSG表现出了明显的优势。对于论元抽取，与基准方法相比，在少样本和数据有限的情况下，DemoSG始终能够实现提高。例如，在ACE05-EN和ACE05-EN+的2/5/10-shot设置中，DemoSG在Arg-C F1方面分别比最高基准方法高出7.4%/+10.0%/+7.5%和+9.4%/+7.7%/+11.4%。关于事件检测，DemoSG也在ACE05-EN+的AVE-R上比最高基线方法高出1.0%，在两个数据集的AVE-S上分别高出5.1%/+7.5%。这些结果为我们的方法在低资源事件提取中的有效性提供了有力的证据。

2）值得注意的是，与数据有限的设置相比，DemoSG在少样本设置中表现出更大的改进，并且在数据有限的设置中，随着可用数据量的增加，改进的程度也在增加。具体来说，对于论元抽取，在两个基准测试中，DemoSG在AVE-R上取得了+4.8%/+6.2%的改进，而在AVE-S上取得了更高的+7.4%/+9.0%的改进。此外，在两个基准测试的数据有限设置中，DemoSG分别在Arg-C F1上表现出+1.1%/+6.5%/+8.2%和+3.9%/+9.7%/+6.5%的增加。这些观察结果表明，我们提出的基于演示的学习可能在数据分布更均衡或演示可用性更高时更有效。

3）所有提出的演示选择策略在性能上表现出色，并具有各自的特点。相似检索策略在处理低资源论元抽取时表现出色，在两个基准测试中，Arg-C的AVE-S较rich-role高出2.7%/2.0%。而富上下文策略倾向于具有更好的低资源事件检测能力，在两个基准测试中，Trig-C的AVE-R较相似检索高出1.7%/0.8%。

4.3 领域自适应场景

为了研究DemoSG的跨领域知识迁移能力，我们在参数自适应和参数无关的领域适应设置下进行实验。

参数自适应的领域适应。

在参数自适应的设置中，我们按照Lu等人（2021）的方法，将每个数据集分为源领域子集（src）和目标领域子集（tgt）。src保留与前10个最常见事件类型相关的示例，而tgt保留与剩余的23个事件类型相关的句子。对于src和tgt，我们将80%的示例用于模型训练，将剩下的20%用于评估。在采样之后，我们首先在src上预训练源领域模型，然后微调模型参数并在tgt集上进行评估。如表3所示，与基线方法相比，DemoSG在目标领域的论元抽取中表现出色，在ACE05-EN/ACE05-EN+上的Arg-C F1上取得了+5.8%/+2.0%的改进，超过了最佳基线方法。对于事件检测，DemoSG在ACE05-EN+上达到了最高的性能，在ACE05-EN上与SOTA方法ONEIE竞争力强。这些结果表明，通过利用事件模式的标签语义信息，DemoSG具有强大的领域适应能力。

参数无关的领域适应。

与先前的事件抽取方法不同，我们通过基于演示的学习增强了生成范式，使DemoSG能够在推理阶段通过目标领域的演示来适应新的领域和事件类型，而无需在目标领域上进一步微调模型参数。具体而言，DemoSG可以直接理解新事件类型的提取过程，通过目标领域的演示。我们将这种能力称为参数无关的领域适应，它可以避免微调过程带来的灾难性遗忘（Li等人，2022）和额外的计算成本。对于参数无关的设置，我们首先在src上训练源领域模型，然后直接在tgt集上进行评估，无需进行参数微调。如表3所示，DemoSG在两个数据集上的事件检测和论元抽取都取得了显著的改进。在事件检测方面，DemoSG在Trig-C F1上比最高基线UIE高出+10.7%/+3.1%，受益于其通过演示理解目标领域提取的能力。在论元抽取方面，尽管DEGREE在参数无关的设置中通过手动设计提示信息，结合新事件类型的角色关系信息，展现出强大的性能，但DemoSG在两个数据集上的Arg-C F1上仍然比DEGREE表现更好，差距为+18.8%/+8.6%。这一结果不仅验证了DemoSG演示的有效性，还表明基于演示的学习是一个更有效的方法来帮助理解任务，而不是复杂的提示信息。

4.4 高资源场景

为了深入了解我们的框架，我们还在高资源场景中评估了我们的方法，其中每种类型的训练样本都非常丰富。对于高资源实验，我们在完整的训练集上训练所有模型，并在原始的开发集和测试集上评估它们的性能。

根据表4的数据，尽管我们的DemoSG是为低资源事件抽取而设计的，但在ACE05-EN+的高资源环境中，在论元抽取（Arg-C）方面也优于基线一定幅度。在事件检测（Trig-C）方面，DemoSG在两个基准测试中也取得了竞争性的结果（分别为73.4%和71.2%）。以上结果证明了DemoSG在低资源和高资源场景下都具有良好的泛化能力。此外，我们观察到，在低资源和高资源场景下，在许多情况下，生成方法的表现优于基于分类的方法，这说明了我们选择采用生成式事件抽取框架的正确性和巨大潜力。

4.5 消融研究

为了检验DemoSG的每个模块的影响和由此产生的改进，我们在少镜头、参数自适应和高资源设置下对三个不同版本的DemoSG进行了消融实验： 1) w/o演示，这消除了演示，并仅基于连接的输入文本和基于模式的提示生成记录。2) w/o模式，它通过在提示构造过程中将所有标签替换为无关的标记，从而排除了模式语义的使用。3) w/o演示和模式，它删除了演示和模式语义。从表5中我们可以观察到：

1) 在三种不同的情景下，当割除演示时，DemoSG的性能显著下降，特别是在ACE05-EN/ACE05-EN+的5-shot设置中，Arg-C F1分别下降了-5.5%/-3.2%。这个结果表明，基于演示的学习在我们的框架中起着至关重要的作用，尤其是对于领域内低资源事件抽取。

2) 融入事件模式的标签语义信息对于DemoSG至关重要，它显著影响了所有的设置。例如，割除模式语义信息会导致参数自适应领域适应设置中Arg-C F1下降了-5.4%/-1.9%。

3) 我们观察到，与只割除其中一个相比，同时割除演示和模式语义信息会导致性能显著下降，特别是在5-shot设置中，Arg-C F1下降了-26.5%/-21.5%。

5 基于演示学习的有效性和鲁棒性

由于演示可以影响低资源事件抽取性能，我们设计了两种不同类型的对演示进行损坏的DemoSG变体，以探索基于演示的学习的有效性和鲁棒性：

1）演示扰动：为了分析错误演示的影响，我们随机选择40%的演示，并将黄金触发词和论元替换为上下文中的随机片段。Test Perturbation仅在推断阶段应用扰动，而Train-test Perturbation在训练和推断阶段都应用扰动。

2）演示丢弃：为了研究基于演示的学习对缺失演示的鲁棒性，我们在训练或推断阶段随机丢弃40%的演示。Test Drop仅在推断阶段丢弃演示，而Train-test Drop在训练和推断阶段都进行丢弃。

我们在5-shot设置下，基于使用丰富角色策略的DemoSG进行了上述实验。从图3中，我们可以观察到以下情况：

1）错误演示对模型性能产生不利影响。具体而言，在两个基准测试中，推断阶段的演示扰动导致Arg-C F1的下降分别为-1.3%/-2.2%。当扰动应用于训练和推断阶段时，这一降低进一步增加至-1.8%/-3.1%。尽管在存在错误演示的情况下，DemoSG的性能略微下降，但仍然始终优于鲁棒基线UIE。这些结果凸显了基于演示的学习的有效性，并强调了准确演示对于帮助模型理解抽取过程的影响。

2）与错误演示相比，演示的缺失对模型性能产生更显著的影响。具体而言，在仅在推断阶段丢弃演示的情况下，Arg-C F1下降了-8.5%/-6.6%，导致DemoSG在ACE05-EN+上的表现不如UIE。我们认为，这种现象可以归因于训练和推断阶段之间的暴露偏差（Exposure Bias），这也解释了为什么DemoSG在数据受限的情况下改进较少。值得注意的是，在训练和推断阶段都丢弃演示的情况下，与Test Drop相比，Arg-C性能恢复了+3.1%/+3.6%。这些结果表明，减少暴露偏差可能是增强基于演示学习鲁棒性的一种有效方法。关于这个话题的进一步研究留待今后进行。

6 结论

在本文中，我们提出了用于低资源事件抽取的增强示范引导生成（DemoSG）模型，它从两个方面获益：首先，我们提出了基于示范学习范式用于事件抽取，充分利用标注数据，将其转化为示范来说明抽取过程，并帮助模型有效学习。其次，我们将事件抽取定义为由基于模式的提示引导的自然语言生成任务，从而利用标签语义并促进在低资源场景下的知识转移。大量实验证明，DemoSG在各种低资源和领域自适应场景中显著优于当前方法，并证明了我们方法的有效性。

局限性

在本文中，我们提出了DemoSG模型来促进低资源事件抽取。为了利用示范和提示的附加信息，DemoSG单独生成每个事件类型的记录。尽管在低资源场景中取得了显著的改进，但单独生成使得DemoEE的预测相对较慢，与一次生成所有记录的方法（Lu等，2021年，2022年）相比。

Rose sait

关注

19
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
【论文阅读笔记|EMNLP2023】DemoSG: Demonstration-enhanced Schema-guided Generation for Low-resource Event Ext

当前大多数事件抽取（EE）方法都专注于高资源场景，这需要大量的带注释数据，难以应用于低资源领域。为了更有效地应对有限资源下的EE问题，我们提出了增强演示引导生成（DemoSG）模型，它从两个方面为低资源EE提供了帮助：首先，我们提出了基于演示的EE学习范式，充分利用带注释的数据，将其转化为演示来展示提取过程，并帮助模型有效学习。其次，我们将EE作为一个由基于模式的提示引导的自然语言生成任务来进行建模，从而利用标签语义并促进低资源场景中的知识转移。
复制链接

扫一扫