恒源云(GpuShare)_PRGC:基于潜在关系和全局对应的联合关系三元组抽取

文章来源 | 恒源云社区

原文地址 | PRGC:基于潜在关系和全局对应的联合关系三元组抽取

原文作者 | Mathor


Abstract

​ 本文讲关系抽取任务分解为关系判断、实体提取和subject-object对齐三个子任务,提出了一种基于潜在关系和全局对应的联合关系三元组抽取框架(PRGC)。具体而言,首先设计一个预测潜在关系的组件,将后续实体提取限制在预测的关系子集上,而不是所有的关系;然后用特定于关系的序列标记组件处理subject-object之间的重叠问题;最后设计一个全局对应组件来以较低的复杂度将主客体对齐成三元组。在两个公共数据集上达到了新的SOTA。

1 Introduction

​ 关系抽取是从非结构化文本中识别(subject,relation,object)三元组。本文将其分解为三个子任务:1.关系判断:识别句子中的关系;2.实体提取:识别句子中的subject和object;3.subject-object对齐:将subject-object对齐成一个三元组

对于关系判断:本文通过 P o t e n t i a l   R e l a t i o n   P r e d i c t i o n Potential\ Relation\ Prediction Potential Relation Prediction组件来预测潜在关系,而不是保留所有的冗余关系,这降低了计算复杂度,取得了更好的性能,特别是在实体提取方面。在实体提取方面:本文使用了一个更健壮的 R e l a t i o n   S p e c i f i c   S e q u e n c e   T a g Relation\ Specific\ Sequence\ Tag Relation Specific Sequence Tag组件(简称Rel-Spec Sequence Tag)来分别提取subject和object,以自然地处理subject和object之间的重叠。对于subject-object对齐:本文设计了与一个关系无关的全局对应矩阵来判断特定的subject-object对在三元组中是否有效。

​ 在给定句子的情况下,PRGC首先预测潜在关系的子集包含所有subject-object之间对应分数的全局矩阵;然后进行序列标注,并行地提取每个潜在关系的主客体;最后枚举所有预测的实体对,然后通过全局对应矩阵进行剪枝

2 Method

2.1 PROBLEM DEFINITION

​ 输入是具有n个token的句子 S = x 1 , x 2 , … , x n S={x_1,x_2,…,x_n} S=x1,x2,,xn,期望的输出是关系三元组 T ( S ) = ( s , r , o ) ∣ s , o ∈ E , r ∈ R T(S)={(s,r,o)|s,o \in E, r\in R} T(S)=(s,r,o)s,oE,rR,其中 E E E R R R分别表示实体集和关系集。

2.1.1 Relation Judgement

​ 对于给定句子 S S S该子任务是预测它句子 S S S包含的潜在关系ÿ

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值