知识图谱思想

知识图谱

现有
诸如Wikidata、Yago、DBpedia,富含海量世界知识,并以结构化形式存储
2019 年年底,图灵奖获得者 Bengio 曾指出,我们正处于从以感知智能为代表的深度学习“系统一”,向以认知智能为代表的深度学习 “系统二”过渡的时期
在这个过程中,知识图谱技术起到了关键性的作用。近年来,图网络的蓬勃发展也印证了这一趋势
引入人类的知识是人工智能的重要研究方向之一
知识表征和推理受到了人类解决问题方法的启发,旨在为智能系统表征知识,从而获得解决复杂问题的能力
最近,知识图谱作为一种结构化的人类知识,同时受到了学术界和工业界人士的极大关注
每个节点代表现实世界中的某个实体,它们的连边上标记实体间的关系
知识图谱是一种对于事实的结构化表征,它由实体、关系和语义描述组成
实体可以是真实世界中存在的对象,也可以是抽象的概念;关系则表示实体之间的关联;实体及其关系的语义描述包含定义良好的类型和属性
这些结构化的知识已被广泛应用于搜索引擎、问答系统等自然语言处理应用中
术语知识图谱和知识库几乎是同义词,只有很微小的差别
在逻辑学和人工智能领域,知识表征经历了漫长的发展历史。用图进行知识表征的思想最早可以追溯到 Richens 在 1956 年提出的语义网(Semantic Net),而符号逻辑知识则可以追溯到 1959 年的通用问题求解器
起初,知识库被用于基于知识的推理的问题求解系统。MYCIN 是被用于医学诊断的、最著名的基于规则的专家系统之一,它拥有一个包含约 600 条规则的知识库
在这之后,人类知识表征研究社区在基于框架的语言、基于规则的表征以及混合表征方面都取得了一定的研究进展。大约在这一时期的末期,旨在集成人类知识的 Cyc 计划,开始了
资源描述框架(RDF)和网络本体语言(OWL)相继发布,成为了语义网的重要标准。接着,人们也发布了诸如 WordNet、DBpedia、YAGO 和 Freebase 这样的开放的知识库或本体
Stokman 和 Vries 于 1988 年提出了现代意义上的以图的形式组织知识的思想。然而,知识图谱的概念开始盛行还要等到2012 年谷歌首次在其搜索引擎中引入知识图谱,此时它们提出了被称为Knowledge Vault的知识融合框架,从而构建大规模知识图谱
当我们考虑知识图谱的图结构时,可以将其视为一个图
当涉及形式语义问题时,它又可以作为对事实进行解释和推理的知识库
知识可以通过资源描述框架(RDF)被表示为一种事实三元组的形式,如(头实体,关系,尾实体)或(主语,谓语,宾语),例如(爱因斯坦,是…获奖者,诺贝尔奖)
知识也可以被表征为一种有向图,其节点代表实体,边代表关系
研究人员做了大量工作,通过描述通用语义表征或本质特征来为知识图谱给出定义
然而,知识图谱至今仍没有被广为接受的正式定义。Paulheim 定义了 4 种知识图谱的标准
Ehrlinger 和 Wo ̈ß 分析了一些现有的定义,并提出了如下所示的定义 1,它强调了知识图谱的推理引擎
定义 1(Ehrlinger 和 Wo ̈ß):知识图谱会获取信息并将其集成到一个本体中,使用一个推理器产生新的知识
Wang 等人在定义 2 中提出了一个多关系图的定义
知识图谱是由实体和关系构成的多关系图,实体被视为节点而关系被视为各种不同类型的边
受到之前这些工作的启发,我们将一个知识图谱定义为 G = {E,R,F},其中 E、R、F分别是实体、关系和事实的集合。事实可以被表示为一个三元组 (h,r,t) ∈ F
知识图谱研究分类
知识表征学习(KRL)
知识表征学习是知识图谱领域的关键研究问题,它为许多知识获取任务和下游应用打下了基础
我们将 KRL 分为 4 个层面:表征空间、打分函数、编码模型和辅助信息
学习实体和关系的低维分布嵌入是表征学习的关键问题
现有的工作主要使用的是向量、矩阵、张量空间等实值点空间(如图 3a 所示),同时也会使用复杂向量空间(如图 3b 所示)、高斯空间(如图 3c 所示)以及流形(如图 3d 所示)等其它类型的空间
打分函数被用来衡量事实的合理性,它在基于能量的学习框架中也被称为能量函数。基于能量的学习旨在学习输入为 x、参数为 θ 的能量函数 E_θ(x),它将确保正样本比负样本有更高的得分。在本文中,统一将其称为打分函数
典型的用于衡量事实合理性的打分函数分为两类:即基于距离的打分函数(如图 4a 所示)和基于相似度的打分函数(如图 4b)。基于距离的打分函数通过计算实体之间的距离衡量事实的合理性,通过实体间关系实现 h + r ≈ t 这种加法变换的思想被广泛使用。基于语义相似度的打分函数通过语义匹配衡量事实的合理性,它通常采用乘法公式在表征空间中将头实体变换得与尾实体相近
编码模型通过特定的模型架构(如线性/双线性模型、因子分解模型、神经网络)编码实体和关系之间的相互作用
线性模型通过将头实体投影到接近尾实体的表征空间中,将关系表示为一个线性/双线性映射。因子分解旨在将关系型数据分解到低秩矩阵中,从而进行表征学习。神经网络则通过非线性神经激活映射和更加复杂的网络结构对关系型数据进行编码
图 5:神经编码模型示意图。(a)多层感知机,和(b)卷积神经网络将三元组输入到全连接层中,并且进行卷积操作,从而学习到语义表征。(c)图卷积网络作为知识图谱编码器,生成实体和关系的嵌入。(d)RSN 有差别地对“实体-关系序列”和跳跃关系进行编码
为了促进更有效的知识表征,多模态嵌入将诸如文本描述、类型约束、关系路径以及视觉信息等外部信息与知识图谱本身融合在了一起
在知识图谱研究社区中,知识表征学习是非常重要的。总的来说,想要研发一个新的知识表征学习模型需要回答以下 4 个问题:(1)选择怎样的表征空间;(2)如何度量特定空间中的三元组合理性;(3)用怎样的编码模型编码关系的相互作用;(4)是否要利用辅助信息
最常用的表征空间是欧氏点空间,它将实体嵌入到向量空间中,并且通过向量、矩阵或张量对相互作用进行建模。人们也研究了其它的表征空间(包括复杂向量空间、高斯分布、流形空间、群)
相对于欧氏点空间,流形空间的优势在于它能够松弛基于点的嵌入;高斯嵌入可以表达出实体和关系之间的不确定性,以及多重关系语义;复杂向量空间中的嵌入可以有效地建模不同的关系连接模型,特别是对称/反对称模式
在编码实体的语义信息和获取关系属性时,表征空间起着非常重要的作用
当我们研发一个表征学习模型时,应该选择合适的表征空间,该表征空间被精心设计以匹配编码方式的特性,并且能够在表达能力和计算复杂度之间达到平衡
采用基于距离的度量的打分函数会用到相应的转化原则,而基于语义匹配的打分函数则会采用成分级别的操作
编码模型(尤其是神经网络)在对于实体和关系的相互作用建模的过程中起到了关键作用。双线性模型也受到了很多研究人员的关注,一些张量分解技术与此相关。其它方法则引入了文本描述、关系/实体类型,以及实体图像等辅助信息
知识获取
知识获取旨在根据非结构化的文本构建知识图谱、补全一个现有的知识图谱,发现并识别出实体和关系。构建好的大型知识图谱对于很多下游应用是很有用的,可以赋予基于知识的模型常识推理的能力,因此为实现人工智能打下基础
知识获取的主要任务包括关系抽取、知识图谱补全、以及其它面向实体的获取任务,如实体识别和实体对齐。大多数方法单独地形式化定义知识图谱补全和关系抽取。然而,这两种任务也可以被整合到一个统一的框架中
Han 等人基于互注意力机制提出了一种联合学习框架,这种互注意力机制被用于知识图谱和文本之间的数据融合,该框架同时解决了根据文本进行知识图谱补全和关系抽取的问题。此外,还有一些任务也与知识补全有关(例如,三元组分类和关系分类)。在本节中,我们将完整地回顾知识补全、实体发现和关系抽取三步知识获取技术
知识图谱补全(KGC)
由于大多知识图谱具有不完整性,人们研发知识补全技术将新的三元组添加到一个新的知识图谱中。典型的子任务包括链接预测、实体预测和关系预测。下面我们给出面向任务的定义 3
定义 3:给定一个不完整的知识图谱 G=(E,R,F),知识图谱补全旨在推理出缺失的三元组 T={(h,r,t)|(h,r,t)∉ F}
初期的知识图谱补全研究重点关注为三元组预测学习低维嵌入。在本文中,我们将其称为基于嵌入的方法
然而,大多数这些方法都不能获取多级关系。因此,最近的工作转而探索多级关系路径并引入了逻辑关系,我们分别将其称为关系路径推理和基于规则的推理。三元组分类是知识图谱补全的一个辅助任务,它被用来评价事实三元组的正确性
实体发现
实体发现可以从文本中获取面向实体的知识,并且在各个知识图谱之间进行知识融合。根据具体情况,可以将实体发现任务分为几种不同的类别
我们以一种序列到序列(Seq2Seq)的方式探究实体识别任务;而实体分类任务则重点讨论的是有噪声的类型标签和零样本分类;实体消歧和对齐任务会学习统一的嵌入,它们提出迭代式的对齐模型解决对齐种子实体数量有限的问题。但是如果新对齐的实体性能很差,它将会面临误差累积的问题
关系抽取
关系抽取是自动构建大型知识图谱的关键任务,该任务将从朴素文本中抽取出未知的关系事实,并将他们添加到知识图谱中
由于缺乏带有标签的关系型数据,远程监督(Distant Supervision)技术(又称弱监督或自监督)使用启发式匹配,假设在关系型数据库的监督下

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值