关系抽取简介

序言

关系抽取 (Relation Extraction, RE) 是从自然语言文本中抽取实体及其之间关系的信息技术,是信息检索、智能问答、智能对话等人工智能应用的重要基础,一直受到业界的广泛关注。关系抽取任务涉及命名实体识别、指代消解、关系分类等复杂技术,极具挑战性。

什么是关系抽取

信息抽取是从海量的非结构外的文本中抽取出有用的信息,并结构化成下游工作可用的格式。关系抽取是其重要的子任务之一,主要目的是从文本中识别实体并抽取实体之间的语义关系。
举例
{
“text”: “《邪少兵王》是冰火未央写的网络小说连载于旗峰天下”,
“spo_list”:
[{“predicate”: “作者”,
“object_type”: {"@value": “人物”},
“subject_type”: “图书作品”,
“object”: {"@value": “冰火未央”},
“subject”: “邪少兵王”}]
}
上述是百度2020年语言与智能技术竞赛:关系抽取任务中的一个例子,通过给定的文本,识别出其中的主实体为邪少兵王,客实体为冰火未央,主实体和客实体的关系为作者,s的p是o,则抽取出上述的spo三元组。

如何进行关系抽取

第一步 数据分析

首先对拿到的数据进行数据分析,包括统计每个句子的长度及三元组数量,每种关系的数量分布情况。
举例:对百度关系抽取比赛进行数据分析得到三元组的数量分布和三元组关系分布
在这里插入图片描述
在这里插入图片描述

第二步 序列标注模型

预测句子中的实体,我们将句子中的主体和客体作为实体,分别标注为SUBJ和OBJ,标注体系采用BIO。一个简单的标注例子如下:
在这里插入图片描述
BIO标注:将每个元素标注为“B-X”,“I-X”或“O”。
“B-X”:表示此元素所在的片段属于X类型并且此元素在此片段的开头。
“I-X”:表示此元素所在的片段属于X类型并且此元素在此片段的中间位置。
“O”:不属于任何类型。

第三步 关系分类模型

实体加上句子,进行分类,预测实体间的关系,最后形成有效的三元组。

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值