知识图谱综述

定义:知识图谱是结构化的语义知识库,用以符号形式描述物理世界中的概念及其关系,其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性值对,实体间通过关系相互联结,构成网状的知识结构。

架构:知识图谱从逻辑上划分为2个层次:数据层和模式层。模式层在数据层之上,是知识图谱的核心。如下图所示,知识图谱的构建过程是从原始数据出发,采用一系列自动或半自动的技术手段,从原始数据中提取出知识要素(即事实),并将其存入知识库的数据层和模式层的过程.这是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包含3个阶段:信息抽取、知识融合以及知识加工.

1. 信息抽取:从各种类型的数据源中提取出实体(概念)、属性以及实体间的相互关系,在此基础上形成本体化的知识表达。信息抽取是知识图谱构建的第1步,其中的关键问题是如何从异构数据源中自动抽取信息得到候选知识单元.信息抽取是一种自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术.涉及的关键技术包括:实体抽取、关系抽取和属性抽取.

1.1 实体抽取:也称为命名实体识别,是指从文本数据集中自动识别出命名实体.实体抽取的质量(准确率和召回率)对后续的知识获取效率和质量影响极大,因此是信息抽取中最为基础和关键的部分。

1.2 关系抽取:文本语料经过实体抽取,得到的是一系列离散的命名实体,为了得到语义信息,还需要从相关语料中提取出实体之间的关联关系,通过关系将实体(概念)联系起来,才能够形成网状的知识结构.研究关系抽取技术的目的,就是解决如何从文本语料中抽取实体间的关系这一基本问题。

1.3 属性抽取:属性抽取的目标是从不同信息源中采集特定实体的属性信息.例如针对某个公众人物,可以从网络公开信息中得到其昵称、生日、国籍、教育背景等信息.属性抽取技术能够从多种数据来源中汇集这些信息,实现对实体属性的完整勾画。

2.知识融合:通过信息抽取,实现了从非结构化和半结构化数据中获取实体、关系以及实体属性信息的目标,然而,这些结果中可能包含大量的冗余和错误信息,数据之间的关系也是扁平化的,缺乏层次性和逻辑性,因此有必要对其进行清理和整合。知识融合包括2部分内容:实体链接和知识合并。

2.1 实体链接:实体链接是指对于从文本中抽取得到的实体对象,将其链接到知识库中对应的正
确实体对象的操作.实体链接的一般流程是:1)从文本中通过实体抽取得到实体指称项;2)进行实体消歧和共指消解,判断知识库中的同名实体与之是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同的含义;3)在确认知识库中对应的正确实体对象之后,将该实体指称项链接到知识库中对应实体.

2.2 知识合并:在构建知识图谱时,可以从第三方知识库产品或已有结构化数据获取知识输入.例如,关联开放数据项目会定期发布其经过积累和整理的语义知识数据,其中既包括前文介绍过的通
用知识库DBpedia和YAGO,也包括面向特定领域的知识库产品,如MusicBrainz和DrugBank等.

3.知识加工:通过信息抽取,可以从原始语料中提取出实体、关系与属性等知识要素.再经过知识融合,可以消除实体指称项与实体对象之间的歧义,得到一系列基本的事实表达.然而,事实本身并不等于知识,要想最终获得结构化、网络化的知识体系,还需要经历知识加工的过程.知识加工主要包括3方面内容:本体构建、知识推理和质量评估.

4.知识更新:人类所拥有的信息和知识量都是时间的单调递增函数,因此知识图谱的内容也需要与时俱进,其构建过程是一个不断迭代更新的过程.
 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值