阅读笔记——A Frustratingly Easy Approach for Entity and Relation Extraction

最新推荐文章于 2024-10-06 21:18:37 发布

AItth

最新推荐文章于 2024-10-06 21:18:37 发布

阅读量148

点赞数

文章标签：笔记人工智能自然语言处理

本文链接：https://blog.csdn.net/weixin_49313319/article/details/133186701

版权

Abstract

本文的方法基本上建立在两个独立的编码器上，并且仅仅使用实体模型来构造关系模型的输入。
通过一系列仔细的检查，本文验证了学习实体和关系的不同上下文表示、在关系模型中早期融合实体信息和合并全局上下文的重要性。
最后，还提出了一种有效的近似方法，该方法只需要实体编码器和关系编码器在推理时通过一次，实现了8-16倍的加速，但精度略有降低。

1 Introduction

从非结构化文本中提取实体及其关系是信息抽取的基本问题。有两个子任务：命名实体识别 (Sang and De Meulder,2003;Ratinov andRoth,2009) 和关系抽取 (Zelenko et al.,2002;Bunescu and Mooney,2005)
发展： 管道方式到联合模型
本文： 提出了一种简单的方法，该方法可以学习建立在深度预训练语言模型之上的编码器。这两个模型——我们在整个论文中把它们称为实体模型和关系模型——是独立训练的，关系模型只依赖实体模型提供输入特征。我们的实体模型建立在跨级表示之上，而我们的关系模型建立在特定于一对跨的上下文表示之上。
结果： 尽管它很简单，但我们发现这种流水线方法非常有效:使用相同的预训练编码器，我们的模型在三个标准基准上优于所有以前的联合模型:ACE04、ACE05和SciERC，相对于F1绝对提高了1.7%-2.8%。
分析观察：
（1）实体和关系模型的上下文表示本质上捕获了不同的信息，因此共享它们的表示会影响性能;
（2）在关系模型的输入层融合实体信息(包括边界信息和类型信息)至关重要;
（3）利用交叉句信息在两个任务中都是有用的。因此，我们期望这个简单的模型将作为端到端关系提取的一个非常强的基线，并使我们重新思考实体和关系联合建模的价值。
问题：
每个实体需要运行关系模型
解决办法：
通过近似和批处理不同组的实体对在推理时间的计算。
总结：

提出了一种简单有效的端到端关系提取方法，它学习了两个独立的编码器进行实体识别和关系提取。我们的模型在三个标准基准上建立了新的最先进的技术，并超越了以往所有的联合模型。
进行仔细的分析，以理解为什么我们的方法表现如此之好，以及不同的因素如何影响最终的表现。结论是，学习实体和关系的不同上下文表示比联合学习它们更有效。
为了加快我们模型的推理时间，还提出了一种新的有效近似，它在运行时间上有很大的提高，但精度下降很小。

2 Related Work

将现有的联合模型分为两类:结构化预测和多任务学习:
结构化预测方法将这两个任务放到一个统一的框架中，尽管它可以用不同的方式表述。所有方法都需要处理全局优化问题，并在推理时使用波束搜索或强化学习进行联合解码。
多任务学习这类模型基本上建立了实体识别和关系提取两个独立的模型，并通过参数共享共同优化它们。这些方法仍然执行流水线解码:首先提取实体，然后将关系模型应用于预测的实体。
与本文最接近的研究是DYGIE和DYGIE ++ (Luan et al.，2019;Wadden et al.，2019)，它们建立在最近基于跨的共参分辨率模型(Lee et al.，2017)和语义角色标注模型(He et al.，2018)上。他们方法的核心思想是学习两个任务之间共享的跨度表示，并通过动态图传播层更新跨度表示。最近的一个workLin等人(2020)通过合并基于跨子任务和跨实例约束的全局特性，进一步扩展了DYGIE++。本文的方法要简单得多，将在第3.2节详细说明差异，并解释为什么我们的模型性能更好。

3 Method

3.1 Problem Definition

选择合并跨句上下文来构建更好的上下文表示(章节3.2)。该问题可以分解为两个子任务:
命名实体识别关系抽取

3.2 Our Approach

在这里插入图片描述
如上图所示，我们的方法由一个实体模型和一个关系模型组成。实体模型首先接受输入句子，并预测每个跨度的实体类型。然后，我们通过插入额外的标记来突出主题和对象及其类型，在关系模型中独立地处理每一对候选实体。我们将在下面详细介绍每个组件，最后总结我们的方法与DYGIE++之间的区别。
==实体模型：==我们的实体模型是一个标准的基于跨度的模型。我们首先使用预先训练过的语言模型(例如，BERT)来获得每个输入标记的上下文化表示。给定一个span∈S，其span表示定义为:
在这里插入图片描述
其中φ(si)∈rd表示跨宽特征习得的嵌入。然后将跨度表示送入前馈网络，以预测实体的概率分布。
==关系模型：==关系模型以一对跨度si，sj(一个主体和一个客体)作为输入，并预测一个关系类型。以前的方法(Luan et al.，2018,2019;Wadden et al.，2019)重复使用跨度表示he(si)，he(sj)来预测si和sj之间的关系。我们假设，这些表示只捕获每个独立实体的上下文信息，而可能无法捕获一对跨度之间的依赖关系。我们还认为，在不同的跨度对之间共享上下文表征可能是次优的。
相反，我们的关系模型独立地处理每一对跨度，并在输入层插入类型化标记，以突出主题和对象及其类型。具体来说，给定一个输入句子X和一对主-宾跨度si，sj，其中，si,sj 类型分别是ei, ej。我们定义文本标记<S：ei>，</S:ei>，<O:ej>，<o:ej> 并将它们插入到输入句子的主语和宾语范围的前后(上图(b)).
X 表示插入文本标记的修改序列:
在这里插入图片描述
我们在X上应用第二个预先训练好的编码器，并用xt表示输出表示。我们将两个起始位置的输出表示连接起来，得到张成对表示: