基于主体掩码的实体关系抽取方法

点击上方蓝字关注我们


基于主体掩码的实体关系抽取方法

郑慎鹏1, 陈晓军1, 向阳1, 沈汝超2

1 同济大学电子与信息工程学院,上海 201804

2 上海国际港务(集团)股份有限公司,上海 200080

 

摘要实体关系抽取技术能够自动化地从海量无结构文本中抽取信息,构建大规模知识图谱,丰富现有知识图谱的内容,为知识图谱推理和应用提供支持。目前级联式的实体关系抽取技术已经取得了不错的成绩,但其在主体的向量表示和指针网络解码上存在不足。针对主体向量表示问题,提出利用注意力机制和掩码机制生成主体向量的方法。另外,针对指针网络中因遗漏标注而解码出过长实体的问题,提出引入实体序列标记任务,辅助指针网络解码实体。在大规模实体关系数据集DuIE2.0上进行实验验证得出,相较于先前模型,所提方法取得了0.88%的提升。

关键词RoBERTa ; 实体关系抽取 ; 主体掩码

论文引用格式:

郑慎鹏, 陈晓军, 向阳, 等. 基于主体掩码的实体关系抽取方法[J]. 大数据, 2021, 7(3): 3-14.

ZHENG S P, CHEN X J, XIANG Y, et al. An entity relation extraction method based on subject mask[J]. Big Data Research, 2021, 7(3):  3-14.

1 引言

目前,网络上保存着海量的非结构化文本,且其规模仍呈指数级上升。同时,知识图谱被广泛应用在政府治理、智能问答、搜索引擎等领域,而知识图谱的内容丰富程度和及时性直接影响其应用效果。因此,作为自动化地从非结构化文本中构建知识图谱的关键技术之一,实体关系抽取技术受到了研究人员的广泛关注。实体关系抽取旨在识别出文本中实体和实体之间的语义关系,并以三元组的形式<主体,关系,客体>表示。比如,“《琴键右角》是张德兰演唱的一首单曲”中包含实体“琴键右角”和“张德兰”,且实体间存在关系“歌手”,用三元组表示为<琴键右角,歌手,张德兰>。

早期的实体关系抽取方法和基于传统机器学习的实体关系抽取方法需要专家构造大量的规则或者人工特征,难以应对大规模的实体关系提取。随着深度学习的兴起,神经网络模型可以自动提取文本的特征,减少人工提取特征的工作,也能更有力地应对大规模的实体关系提取工作,成为当前实体关系提取的主流方法。目前,基于神经网络的实体关系抽取方法可以分为流水线方法和联合抽取方法两类。

流水线方法将实体关系抽取分解为实体识别和关系分类两个步骤,并用两个独立的模型实现。此类方法先用实体识别模型识别出文本中的所有实体,然后用关系分类模型判断所有可能实体对的语义关系。流水线方法能够灵活地选择实体识别模型和关系分类模型,但是其缺点也是显而易见的。首先,流水线方法存在错误传播的问题,实体识别阶段和关系分类阶段的错误会叠加,导致最终的性能下降。再者,实体识别模型和关系分类模型是完全独立的,忽略了实体识别任务和关系抽取任务的内在联系。

联合抽取方法旨在利用一个模型实现实体识别和关系抽取,有效避免流水线方法中存在的两点弊端。联合抽取方法依据解码方式一般可分为独立解码、级联解码和一次解码3类。在独立解码的方法中,实体识别和关系抽取共享文本编码层,在解码时仍然是两个独立的部分。为了使两个任务间建立更加密切的联系,级联解码的方法通常会先抽取主体,再根据主体抽取相关的关系-客体。而一次解码方法则将实体识别和关系抽取统一为一个任务,一次抽取出实体对及其对应关系。目前级联解码的方法和一次解码的方法在实体关系抽取中都取得了不错的成绩。在后两类方法中,实体嵌套问题和关系重叠问题相互交织,使情况变得比较复杂,见表1。Wei Z P等人提出了一种新颖的级联式标记框架,很好地解决了联合抽取中实体嵌套和关系重叠同时存在的问题。该方法将实体关系抽取看作抽取主体和根据主体抽取关系-客体两个部分,并且采用指针网络的结构标注主体与客体。但是,此方法在表示主体向量时,只是简单地将主体所含的所有字向量做平均,这会导致一些显著特征在平均后会丢失,尤其是在中文中。此外,使用指针网络标注时,模型漏标会导致出现过长且有明显错误的实体。针对该方法中存在的两点问题,本文提出了以下改进:

● 针对主体向量的表示问题 ,提出基于主体掩码的主体向量生成方法,利用注意力机制和掩码机制,生成主体向量;

● 针对多层指针网络的漏标问题,提出实体序列标注子任务,在解码实体时提供辅助信息。

2 相关工作

在知识图谱的构建过程中,实体关系抽取技术起着非常重要的作用。早期基于规则、词典或本体的实体关系抽取方法存在跨领域的可移植性较差、人工标注成本较高以及召回率较低等问题。后来,相比于早期的方法,以统计语言

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值