大模型+小模型协同处理跨文档理解任务,成本更低,性能更高

摘要

跨文档事件核指代解析(CDECR)涉及将跨多个文档引用的事件提及聚类到同一实际事件。本文提出了一种协作方法,利用大型语言模型(LLM)和任务特定的小语言模型(SLM)的能力。LLM通过提示准确全面地总结事件,然后SLM在微调过程中根据这些见解优化其对事件表示的学习。实验结果表明,该方法在各种数据集上均取得了最先进的性能,突显了其在不同场景中的有效性。

简介

事件指代消解是信息提取中的一个重要任务,尤其在跨文档事件指代消解方面存在挑战。现有工作尝试通过微调小语言模型来解决跨文档事件指代消解,但仍然面临着复杂多样的语境和学习伪特征的问题。

本文介绍了一种协作式的方法,结合了大规模语言模型和有监督序列标注模型,用于解决复杂文本中的事件关系抽取任务。该方法利用大规模语言模型的通用能力,对文本中的事件提取进行总结,然后将这些信息传递给有监督序列标注模型,以提高其对事件的理解和判断能力。实验结果表明,该方法在三个数据集上均取得了最优结果。

相关工作

CDECR早期研究使用机器学习方法和手动设计的特征,最近的神经方法利用SLM对事件提及进行编码,融合了SRL提取的不完整参数作为提及的表示。LLM在信息抽取任务中表现出色,但与监督式SLM相比仍存在差距。有研究直接使用IE任务的标记数据对LLM进行微调,但与训练SLM相比成本效益较低。

LLM和SLM的整合是一种新兴的方法,已经在一些复杂的信息抽取任务中得到了应用。这种方法的主要挑战在于如何找到合理的演示来处理NULL类型的三元组,同时也存在数据分布的偏移问题。与此不同的是,我们的方法只需要LLM执行通用任务,利用其内在能力来辅助特定任务。同时,其他研究也在利用LLM生成来辅助SLM处理CDECR任务,但这些方法需要处理多个提及对之间的关系,效率不如我们的方法。

方法

任务和基线

CDECR任务的目标是将跨多个文档的共引用事件进行分组并整合。我们将任务形式化如下:

输入:由多个文档组成的语料库,用D表示。设M表示语料库中提及的所有事件,k表示每个文档中提到的事件数,m ij表示文档i中提到的第j个事件。

输出:一组聚类,记作C。对于每一个簇Ck, ek表示簇Ck中包含的所有事件提及,ekj为簇Ck中被提及的第j个事件。

我们的基线包括两个关键的聚类模块:候选检索和成对分类。这两个模块主要使用RoBERTa编码器对上下文进行编码,并获得事件提及的矢量表示。我们将编码过程形式化如下:

对于每一个提到m ij的事件,其向量表示为:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值