知识图谱多跳问答推理研究进展、挑战与展望

点击上方蓝字关注我们


知识图谱多跳问答推理研究进展、挑战与展望

杜会芳1, 王昊奋1, 史英慧2, 王萌3

1 同济大学设计创意学院,上海 200092

2 东南大学网络空间与安全学院,江苏 无锡 214100

3 东南大学计算机科学与工程学院,江苏 南京 211189

 摘要近年来,知识图谱问答在医疗、金融、政务等领域被广泛应用。用户不再满足于关于实体属性的单跳问答,而是更多地倾向表达复杂的多跳问答需求。为了应对上述复杂多跳问答,各种不同类型的推理方法被陆续提出。系统地介绍了基于嵌入、路径、逻辑的多跳知识问答推理的最新研究进展以及相关数据集和评测指标,并重点围绕前沿问题进行了讨论。最后总结了现有方法的不足,并展望了未来的研究方向。

关键词 知识图谱 ; 多跳问答 ; 推理

论文引用格式:

杜会芳, 王昊奋, 史英慧, 等. 知识图谱多跳问答推理研究进展、挑战与展望[J]. 大数据, 2021, 7(3):60-79.

DU H F, WANG H F, SHI Y H, et al. Progress, challenges and research trends of reasoning in multi-hop knowledge graph based question answering[J]. Big Data Research, 2021, 7(3): 60-79.


1 引言

1.1 背景介绍

随着大数据时代的来临,帮助用户在海量信息中快速找到想要的信息尤为重要。知识图谱(knowledge graph,KG)以三元组的形式结构化存储海量信息,一个三元组可以表示为<eh,r,et>,其中eh表示头实体,et表示尾实体,r表示头实体与尾实体之间存在的关系。知识图谱三元组之间也存在关联关系,如上述三元组中的头实体eh可能是另外一个三元组的尾实体。知识图谱把海量互联网信息表达成客观世界可认知的语义表示,具有强大的语义表达、存储和表达能力,在工业界和学术界得到了广泛关注和研究应用。智能问答系统旨在针对用户提出的复杂信息需求,允许用户用自然语言问句的形式提问,并为用户直接返回精准的答案。得益于知识图谱技术的快速发展,基于知识图谱的问答(knowledge graph based question answering,KGQA)技术利用其丰富的结构化语义信息,能够深入理解用户的问题,并给出准确的答案,为用户提供7×24小时的智能问答服务,在医疗、教育、金融等多个领域凸显出重要的应用价值。

传统KGQA以实体、属性等单一具体对象为主,而在实际应用场景中,用户不再满足于单跳的知识问答,如在医疗领域中的咨询问题“常见的治疗感冒药物有哪些?”。用户更多地倾向表达复杂的多跳问答推理问题,如“请问伴有中耳炎并发症的感冒能用哪种药物治疗?”。而知识图谱多跳问答(以下简称多跳知识问答)即针对包含多跳关系的问题,在知识图谱上进行多步推理,继而推断得到答案的一项任务。

1.2 多跳知识问答推理分类

相比单跳问答,多跳知识问答需要在包含大量知识的知识图谱中找到多个有关联的三元组,并建模多跳长路径,这是更加具有挑战性的任务。同时知识图谱又是不完备的,长路径中任意一个三元组的不完整都会导致找不到正确的答案,这为多跳知识问答带来了更大的挑战。为了解决没有明显答案的复杂多跳查询问题,模型需要基于知识图谱已有知识进行推理。作为多跳知识问答的关键技术支撑,推理为知识图谱智能问答更快落地实际应用发挥了重要作用。

本文总结多跳知识问答推理的最新研究方法,并将这些方法分为基于嵌入的多跳知识问答推理、基于路径的多跳知识问答推理和基于逻辑的多跳知识问答推理3类方法。其中,基于嵌入的多跳知识问答推理方法是将知识图谱元素(如实体、关系等)关联到低维连续向量空间,然后通过定义得分函数或解码器对目标查询对象进行排名来得到答案。而基于路径的多跳知识问答推理方法首先需要确定问题中的主题实体,然后在知识图谱上随机游走找到答案实体,代表性的工作有路径排序算法(path ranking approach,PRA)。关于基于逻辑的多跳知识问答推理方法,本文将重点介绍以一阶逻辑为主的热点研究方法。图1所示为基于知识图谱的多跳问答推理方法分类,接下来综述这些分类中最新方法的研究进展、基本思路和存在的挑战等。

图1   基于知识图谱的多跳问答推理方法分类

2 基于嵌入的多跳知识问答推理

基于嵌入的多跳知识问答推理方法是将问题和候选答案转化为公共向量空间中的语义向量表示来进行操作的方法,基于嵌入的具体操作方法可以分为基于语义匹配的方法、基于图神经网络的方法和基于记忆网络的方法。

(1)基于语义匹配的方法

本类方法首先计算问题和候选答案分布式表示之间的语义匹配,然后通过排序候选答案来得到最终答案。Bordes A等人将问题和知识图谱三元组用嵌入的方式表示来表达特征的语义。然而,与翻译模型TransE、TransH、TransR等关注嵌入表示的模型类似,这些方法只能回答简单问题。为了实现多跳问答推理以及应对多跳知识高效建模的挑战,很多基于语义匹配的方法被提出。Bordes A等人在原来三元组表示方法的基础上做了改进,通过对知识图谱中的问答路径和周围子图进行编码得到语义更加丰富的表示来推理得到答案。Dong L等人提出的多列卷积神经网络(multi-column convolutional neural network,MCCNN)模型进一步地利用具有更强学习能力的神经网络模型来学习答案路径、答案背景信息以及答案类型的分布式表示,并理解问题,在不使用手动特征及词库等的条件下,在问答数据集WebQuestions上取得了不错的结果。其中,答案路径是答案节点和被询问实体之间的一组关系;答案上下文指的是连接到答案路径的单跳实体和关系;答案类型是如人名、日期等的类型。Hao Y C等人认为MC-CNN模型没有充分并合理地考虑候选答案的相关信息来训练问题嵌入的表示,提出了CrossAttention机制的神经网络模型来学习知识图谱的全局信息,取得了更好的结果。但是以上几种方法只能完成浅层多跳知识问答推理,对复杂长路径多跳问题的处理能力依然不足。

Saxena A等人提出的EmbedKGQA模型通过基于知识图谱嵌入模型进行链接预测来缓解多跳问答面临的数据不完整问题,使其具有可以在复杂长路径上的多跳推理能力。EmbedKGQA模型使用C omplEx模型将知识图谱中的实体和关系嵌入复数向量空间,同时采用ComplEx的打分函数φ预测答案。具体而言,对于一个给定的问题q,首先使用RoBERTa模型编码初始向量,然后通过一个前馈神经网络将该向量表示投射到复数嵌入向量空间。问题q和其主题实体h以及知识图谱中的任一实体a可以构成三元组,其嵌入向量分别表示为q、h和a,如果a是q的目标答案实体,则将(h,q,a)视为正样本,并且使,否则将(h,q,a)视为负样本,并使,负样本可通过将正样本中的答案实体替换为知识图谱中其他非答案实体来获得。EmbedKGQA使用大量的正负样本训练数据学习问题和实体的嵌入向量表示&

  • 0
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值