文章来源 | 恒源云社区
原文地址 | PRGC:基于潜在关系和全局对应的联合关系三元组抽取
原文作者 | Mathor
Abstract
本文讲关系抽取任务分解为关系判断、实体提取和subject-object对齐三个子任务,提出了一种基于潜在关系和全局对应的联合关系三元组抽取框架(PRGC)。具体而言,首先设计一个预测潜在关系的组件,将后续实体提取限制在预测的关系子集上,而不是所有的关系;然后用特定于关系的序列标记组件处理subject-object之间的重叠问题;最后设计一个全局对应组件来以较低的复杂度将主客体对齐成三元组。在两个公共数据集上达到了新的SOTA。
1 Introduction
关系抽取是从非结构化文本中识别(subject,relation,object)三元组。本文将其分解为三个子任务:1.关系判断:识别句子中的关系;2.实体提取:识别句子中的subject和object;3.subject-object对齐:将subject-object对齐成一个三元组
对于关系判断:本文通过 P o t e n t i a l R e l a t i o n P r e d i c t i o n Potential\ Relation\ Prediction Potential Relation Prediction组件来预测潜在关系,而不是保留所有的冗余关系,这降低了计算复杂度,取得了更好的性能,特别是在实体提取方面。在实体提取方面:本文使用了一个更健壮的 R e l a t i o n S p e c i f i c S e q u e n c e T a g Relation\ Specific\ Sequence\ Tag Relation Specific Sequence Tag组件(简称Rel-Spec Sequence Tag)来分别提取subject和object,以自然地处理subject和object之间的重叠。对于subject-object对齐:本文设计了与一个关系无关的全局对应矩阵来判断特定的subject-object对在三元组中是否有效。
在给定句子的情况下,PRGC首先预测潜在关系的子集和包含所有subject-object之间对应分数的全局矩阵;然后进行序列标注,并行地提取每个潜在关系的主客体;最后枚举所有预测的实体对,然后通过全局对应矩阵进行剪枝。
2 Method
2.1 PROBLEM DEFINITION
输入是具有n个token的句子 S = x 1 , x 2 , … , x n S={x_1,x_2,…,x_n} S=x1,x2,…,xn,期望的输出是关系三元组 T ( S ) = ( s , r , o ) ∣ s , o ∈ E , r ∈ R T(S)={(s,r,o)|s,o \in E, r\in R} T(S)=(s,r,o)∣s,o∈E,r∈R,其中 E E E、 R R R分别表示实体集和关系集。
2.1.1 Relation Judgement
对于给定句子 S S S,该子任务是预测它句子 S S S包含的潜在关系ÿ