知识图谱构建二、知识图谱定义与架构

最新推荐文章于 2025-03-29 21:45:22 发布

wshzd

最新推荐文章于 2025-03-29 21:45:22 发布

阅读量3.5k

点赞数

分类专栏：笔记 NLP 文章标签：自然语言处理知识图谱

本文链接：https://blog.csdn.net/wshzd/article/details/105989265

版权

笔记同时被 2 个专栏收录

203 篇文章

订阅专栏

NLP

62 篇文章

订阅专栏

本文介绍了知识图谱的定义、架构及构建技术，探讨了其在搜索引擎中的应用价值，以及如何通过实体关系网络实现概念检索和结构化知识展示。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

维基百科对知识图谱给出的词条解释仍然沿用了谷歌的定义，即:知识图谱是谷歌用于增强其搜索引擎功能的辅助知识库.然而从业界的发展动态来看，这个定义显得过于简单。微软在2013年7月发布了自己的Satori知识库之后，必应(Bing)搜索引擎产品的高级主管Weitz公开表示，发布Satori只是表明微软已有类似的技术，然而目前这一技术本身还存在许多问题，微软希望取得领导地位，而不是追随谷歌。这一表态，折射出该领域背后的技术竞争十分激烈，从当前披露出来的商业产品，也能看出业界对此的普遍重视。表1给出了前主流的知识库产品和相关应用，其中，包含实体数最多的是WolframAlpha 知识库，实体总数已超过10万亿条.谷歌的知识图谱拥有5亿个实体和350亿条实体间的关系，而且规模在不断地增加.微软的 Probase包含的概念总量达到千万级，是当前包含概念数量最多的知识库AppleSiri，GoogleNow等当前流行的智能助理应用正是分别建立在 WolframAlpha知识库和谷歌的知识图谱基础之上。值得注意的是，国内也涌现出一些知识图谱产品和应用，如搜狗的知立方，侧重于图的逻辑推理计算，能够利用基于语义网三元组推理补充实体数据，对用户查询进行语义理解以及句法分析等。

从表1可以看出，除传统搜索服务提供商之外，包括Facebook，Apple，IBM等互联网领军企业也加入了竞争。由于相关技术和标准尚未成熟，其应用也处于探索阶段，因此知识图谱的概念目前仍处在发展变化的过程中，通过对现有的研究成果进行比较和提炼，本文提出知识图谱的定义。

1.1、知识图谱的定义

定义1：知识图谱是结构化的语义知识库，用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体 ”三元组，以及实体及其相关属性-值对，实体间通过关系相互联结，构成网状的知识结构。

通过知识图谱，可以实现Web从网页链接向概念链接转变，支持用户按主题而不是字符串检索，从而真正实现语义检索。基于知识图谱的搜索引擎，能够以图形方式向用户反馈结构化的知识，用户不必浏览大量网页，就可以准确定位和深度获取知识。

定义1包含3层含义:

1)知识图谱本身是一个具有属性的实体通过关系链接而成的网状知识库。从图的角度来看，知识图谱在本质上是一种概念网络，其中的节点表示物理世界的实体(或概念)，而实体间的各种语义关系则构成网络中的边。由此，知识图谱是对物理世界的一种符号表达。

2)知识图谱的研究价值在于，它是构建在当前Web 基础之上的一层覆盖网络 (overlaynetwork)，借助知识图谱，能够在Web网页之上建立概念间的链接关系，从而以最小的代价将互联网中积累的信息组织起来，成为可以被利用的知识。

3)知识图谱的应用价值在于，它能够改变现有的信息检索方式，一方面通过推理实现概念检索(相对于现有的字符串模糊匹配方式而言);另一方面以图形化方式向用户展示经过分类整理的结构化知识，从而使人们从人工过滤网页寻找答案的模式中解脱出来。

1.2、知识图谱的架构

知识图谱的架构，包括知识图谱自身的逻辑结构以及构建知识图谱所采用的技术(体系)架构。

首先介绍知识图谱的逻辑结构，从逻辑上将知识图谱划分为2个层次：数据层和模式层。在知识图谱的数据层，知识以事实(fact)为单位存储在图数据库。例如谷歌的Graphd和微软的Trinity都是典型的图数据库。如果以“实体-关系-实体”或者“实体-属性-性值”三元组作为事实的基本表达方式，则存储在图数据库中的所有数据将构成庞大的实体关系网络，形成知识的 “图谱 ”。

模式层在数据层之上，是知识图谱的核心。在模式层存储的是经过提炼的知识，通常采用本体库来管理知识图谱的模式层，借助本体库对公理、规则和约束条件的支持能力来规范实体、关系以及实体的类型和属性等对象之间的联系。本体库在知识图谱中的地位相当于知识库的模具，拥有本体库的知识库冗余知识较少。

接下来从知识图谱构建的角度，介绍知识图谱的一般技术架构。图1给出了知识图谱技术的整体架构，其中虚线框内的部分为知识图谱的构建过程，同时也是知识图谱更新的过程。如图1所示，知识图谱的构建过程是从原始数据出发，采用一系列自动或半自动的技术手段，从原始数据中提取出知识要素(即事实)，并将其存入知识库的数据层和模式层的过程.这是一个迭代更新的过程，根据知识获取的逻辑，每一轮迭代包含3个阶段：信息抽取、知识融合以及知识加工。

知识图谱有自顶向下和自底向上2种构建方式。所谓自顶向下构建是指借助百科类网站等结构化数据源，从高质量数据中提取本体和模式信息，加入到知识库中；所谓自底向上构建，则是借助一定的技术手段，从公开采集的数据中提取出资源模式，选择其中置信度较高的新模式，经人工审核之后，加入到知识库中。

在知识图谱技术发展初期，多数参与企业和科研机构都是采用自顶向下的方式构建基础知识库，例如，Freebase项目就是采用维基百科作为主要数据来源。随着自动知识抽取与加工技术的不断成熟，目前的知识图谱大多采用自底向上的方式构建，其中最具影响力的例子包括谷歌的 KnowledgeVault和微软的 Satori 知识库，都是以公开采集的海量网页数据为数据源，通过自动抽取资源的方式来构建、丰富和完善现有的知识库。

接下来，我会介绍自底向上的知识图谱构建技术，按照知识获取的过程，主要分为3个层次：信息抽取、知识融合以及知识加工，敬请期待。