Document-Level Relation Extraction with Adaptive Thresholding and Localized Context Pooling

最新推荐文章于 2024-01-29 08:53:50 发布

weixin_44729115

最新推荐文章于 2024-01-29 08:53:50 发布

阅读量430

点赞数 1

文章标签：自然语言处理深度学习

本文链接：https://blog.csdn.net/weixin_44729115/article/details/116528513

版权

本文介绍了一种针对文档级别关系抽取的新型方法，提出自适应阈值和局部上下文池化技术，以解决多实体多关系挑战。自适应阈值通过学习性阈值适应不同实体对，而局部上下文池化则聚焦于实体提及的上下文信息。这两种创新有助于提高模型在复杂文档中的关系识别能力。

摘要由CSDN通过智能技术生成

摘要

文档级关系抽取相较于句子级别的关系抽取遇到了新的挑战,一个文档通常包含多个实体对,一个实体对在文档中可能会出现多次并且每次可能包含的关系还不一样. 在这篇文章中我们提出了两种新的技术,自适应阈值和局部上下文池化. 自适应阈值通过一个可学习的实体相关的阈值替换多标签分类的全局阈值,局部上下文池化直接将注意力转换为局部相关的上下文,这样做有利于关系选择.

引言

关系抽取的目的是在给定的文本中辨别两个实体之间的关系,在信息抽取中起到重要作用.现有工作的重点是句子级别的关系抽取,比如预测单个句子中两个实体的关系.然而大量的关系,比如维基百科文章和生物文献中存在大量的关系事实,而这些关系存在于多个句子中. 这个问题就被认定是文档级别的关系抽取,模型需要捕捉整个文档中实体之间的关系.

相较于句子级别的RE,文档级别有着不同的挑战.对于句子级别的RE数据集,比如TARCED和SemEval 2010 TASK 8, 一个句子中只包含一对实体去分类.
对于文档级别的RE,一个文档中包含多个实体对,我们需要一次性将其全部分类. 这需要RE模型识别并关注实体对的相关上下文.另外一个实体对可能会出现多次,并且有不同的关系.这种多实体多关系使得文档级关系抽取比句子级关系抽取更加困难.

为了解决多实体的问题,大多数的方法是利用依存结构启发式或结构化注意力来构造一个文档图. 构造的图连接文档中分散的实体弥补了 RNN编码在捕捉长距离依赖的不足. 目前两种方法一是将图输入预训练语言模型二是直接用预训练语言模型建模 (平均池化实体,放入分类器中),然而每个实体都是一样的向量表示会带来噪音.

为了解决多标签的问题,现有的方法大多转换为二分类问题,一个全局阈值被用于得到关系标签.这种方法主要是利用微调得到启发式阈值问题是这个阈值不一定会对所有例子适用

自适应阈值的做法 : 基于排序损失
在模型训练中，将正类的对数推到阈值以上，将负类的对数拉到阈值以下
在测试时，我们返回比阈值类有更高logit的类作为预测标签，如果此类不存在，则返回NA。这种技术消除了阈值调优的需要，而且还使阈值可以根据不同的实体对进行调整，从而获得更好的结果。

问题定义

在这里插入图片描述

给定一篇文章一个实体集合在这里插入图片描述
一个关系集合

需要做的是预测两个实体 eo和es之间的关系这个关系是关系集合的子集

在文档级别的任务中，每个实体通常使用相同的短语或别名重复出现，这些短语或别名的出现通常被命名为mentions，并被视为该实体的实例。

模型

编码器
给定一个文档

将 * 插入实体提及的开始和结束位置,用BERT得到单词的向量表示

和以往的工作类似,文章一次性编码关系分类基于同一个文章的向量表示.
对于一个提及Nei次的实体ei,我们使用logsumexp pooling 最大池化的平滑版本来得到实体表示 hei

为什么要使用 logsumexp pooling

数据稳定平滑
二分类器

为了减少参数量使用一个分组双线性.

参数量由 d * d 降低到 d*d /k

训练时使用二分类交叉熵损失测试时微调一个全局阈值theta用于最大化评价指标 F1

自适应阈值
RE分类器的输出是范围在0-1的概率,需要将其转换为标签. 阈值既不可导也没有封闭接, 惯常的做法是枚举几个值选择最优. 然而模型对于不同的实体对类别有不同的置信度,也就是说全局阈值是不够的.

在这里插入图片描述
用一个TH class 将正例和负例分开概率高于 TH class的归为正例低于 TH class的归为负例

4. 局部上下文池化

通过实体提及的注意力平均获得实体的注意力

自上而下对公式的解释:
将主体和客体的注意力权重相乘 : 获得主体和客体共同关注的单词权重
将每个头部的权重相加得到总的注意力权重
归一化操作
将权重和单词向量相乘得到上下文的向量表示
注: 1的转置 * q矩阵的目的是求和绿色高亮部分是归一化权重
在这里插入图片描述
将局部上下文的向量表示融合到原来的实体表示中得到新的表示