关系抽取简介

最新推荐文章于 2023-04-08 10:00:00 发布

hannah_fire

最新推荐文章于 2023-04-08 10:00:00 发布

阅读量2.7k

点赞数 1

分类专栏： NLP

本文链接：https://blog.csdn.net/weixin_44549556/article/details/105888796

版权

NLP 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

序言

关系抽取 (Relation Extraction, RE) 是从自然语言文本中抽取实体及其之间关系的信息技术，是信息检索、智能问答、智能对话等人工智能应用的重要基础，一直受到业界的广泛关注。关系抽取任务涉及命名实体识别、指代消解、关系分类等复杂技术，极具挑战性。

什么是关系抽取

信息抽取是从海量的非结构外的文本中抽取出有用的信息，并结构化成下游工作可用的格式。关系抽取是其重要的子任务之一，主要目的是从文本中识别实体并抽取实体之间的语义关系。
举例：
{
“text”: “《邪少兵王》是冰火未央写的网络小说连载于旗峰天下”,
“spo_list”:
[{“predicate”: “作者”,
“object_type”: {"@value": “人物”},
“subject_type”: “图书作品”,
“object”: {"@value": “冰火未央”},
“subject”: “邪少兵王”}]
}
上述是百度2020年语言与智能技术竞赛：关系抽取任务中的一个例子，通过给定的文本，识别出其中的主实体为邪少兵王，客实体为冰火未央，主实体和客实体的关系为作者，s的p是o，则抽取出上述的spo三元组。

如何进行关系抽取

第一步数据分析

首先对拿到的数据进行数据分析，包括统计每个句子的长度及三元组数量，每种关系的数量分布情况。
举例：对百度关系抽取比赛进行数据分析得到三元组的数量分布和三元组关系分布
在这里插入图片描述

第二步序列标注模型

预测句子中的实体，我们将句子中的主体和客体作为实体，分别标注为SUBJ和OBJ，标注体系采用BIO。一个简单的标注例子如下：
在这里插入图片描述
BIO标注：将每个元素标注为“B-X”，“I-X”或“O”。
“B-X”：表示此元素所在的片段属于X类型并且此元素在此片段的开头。
“I-X”：表示此元素所在的片段属于X类型并且此元素在此片段的中间位置。
“O”：不属于任何类型。

第三步关系分类模型

实体加上句子，进行分类，预测实体间的关系，最后形成有效的三元组。

hannah_fire

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
关系抽取简介

序言关系抽取 (Relation Extraction, RE) 是从自然语言文本中抽取实体及其之间关系的信息技术，是信息检索、智能问答、智能对话等人工智能应用的重要基础，一直受到业界的广泛关注。关系抽取任务涉及命名实体识别、指代消解、关系分类等复杂技术，极具挑战性。什么是关系抽取信息抽取是从海量的非结构外的文本中抽取出有用的信息，并结构化成下游工作可用的格式。关系抽取是其重要的子任务之一，...
复制链接

扫一扫