【知识图谱】知识图谱的本质是什么？

置顶落叶阳光

已于 2023-04-18 10:26:30 修改

阅读量6.7k

点赞数 10

分类专栏：算法篇文章标签：知识图谱人工智能

于 2022-10-01 21:52:39 首次发布

本文链接：https://blog.csdn.net/xiangxiang613/article/details/127137397

版权

算法篇专栏收录该内容

33 篇文章 7 订阅

订阅专栏

持续总结更新中

本文关注点在于：
1.大白话总结知识图谱等概率的本质
2.梳理容易混淆的几个概念之间的关系
用尽量简短的话讲清楚。

一句话总结知识图谱

对知识图谱的认识是不是类似于这个样子？
在这里插入图片描述
这只是知识图谱好看的外表，而不是知识图谱朴素的灵魂。高度总结一下：
知识图谱是一种结构化的语义知识库，能够描述物理世界的实体、概念及其相互关系，本质是用图表示知识，给机器提供先验知识。
换句话说：
知识图谱只是知识的一种组织和表示方式。在存储时，就是各种三元组。
知识图谱本质上是一种静态数据结构，它可以存储和组织大量知识，但是对于一些动态、复杂的问题，知识图谱可能并不能很好地处理。
（往大了说，知识图谱是实现从感知到认知智能的重要基石。但目前更多的是作为一种辅助信息用于提升各种模型训练的效果，最成功的应用方向应该是智能问答KBQA和语义搜索）

人工智能从感知到认知

人工智能有三种学派：连接学派（模拟脑的结构），符号学派（模拟人的心智），行为学派（模拟人的行为），连接学派主要是利用大数据和深度学习，解决的是感知层面的问题（计算机视觉，语音识别）。
认知智能是属于符号学派的，如自然语言的理解，推理和联想等，需要知识。
深度学习从大数据中学习到的是特征，而不是知识。
从认知智能层面来拔高知识图谱，这纯粹是过度包装，道阻且长

什么是知识？

知识是经过剪裁、塑造、解释、选择和转换了的信息，换句话说，知识是加工后的信息。
如：“奥巴马是美国的前总统”，对机器而言就是一句话，不知道在讲什么；
处理一下，如变成三元组：（美国，前总统，奥巴马），这就是一条知识了。
这个转换的过程，就是知识表示。
信息关联后所形成的信息结构：事实&规则
**DIKW模型很好的展现了知识和信息的关系。
**
在这里插入图片描述

什么是先验知识？

直白来说，就是事情发生前已经知道的知识，比如你听到“汪汪声”，你猜那是狗🐕；你听到“嘎嘎声”，你猜那是鸭子🦆；你的判断是在不经意的间做出的，事实上做这些判断之前，你已经具备了先验知识，这些知识大概率就是你小时候学习到的。
对于机器而言，没有先验知识，无法做任何分类和预测，模型训练的过程就是机器学习先验知识的过程，比如根据大量的猫的照片学习到猫的特征，当遇到一张没见过的照片时，判断是不是猫。
知识图谱对于机器的作用就是提供大量的先验知识，这类知识，常常作为辅助信息用于算法训练中。
相对的，还有后验知识。

什么是知识表示？

将人类知识形式化或者模型化的过程就是知识表示。
知识表示是将信息抽取成知识，用于给机器提供先验知识。
有很多种知识表示方法，如状态空间法、问题规约法、谓词逻辑、语义网络、本体技术等。

知识图谱的基本组成要素？

实体，属性，关系。
为什么不是本体，属性，关系？
本体是构建阶段的产物，是知识的顶层架构，是概念层面的东西，在实际的知识图谱中，存储的都是实体。

什么是概念？什么是实体？什么是本体？

举个栗子：
张三是一个实体，其具有年龄、性别、职业等属性；
同时，张三是一个人，“人类”就是一个概念、类似的还有“国家”，“民族”等抽象概念；
本体是概念的集合，知识图谱本体层的东西就是各种概念及其属性和关系。
本体的最大作用是见下下一条schema。

谈谈本体构建

2023.1.9
本体的构建（本体建模）通常有自顶向下和自底向上两种方式，一段正式的介绍是：

1.开放域知识图谱的本体构建通常用自底向上的方法，自动地从知识图谱中抽取概念、概念层次和概念之间的关系。
2. 领域知识图谱多采用自顶向下的方法来构建本体。

说白了，前者就是先定义好要抽取那些类型的实体，然后再抽取；后者则是直接开搞，边搞边构建本体。自顶向下构建的本体层逻辑清晰，质量较高，为什么开放域不能这么做，因为实体类型太多了，很难完全归纳出来，抽取的实体粒度较粗，很难迁移应用于专门领域。
针对一个细分的领域，如汽车故障知识图谱，自顶向下就变得可行。
但在实际构建领域知识图谱的过程中，往往结合两种，举个湿栗：
以汽车故障知识图谱为例，先构建了汽车-系统-部件-现象-原因-措施等本体及关系。
然后进行抽取，抽着抽着可能就会遇到问题了，很多自然语言的描述五花八门，eg：

“汽车左前、右前门车门玻璃无法升降”
此时进行抽取，会遇到两个问题：
1.【右前门车门玻璃】如何切分？类似于【南京市长江大桥】这类嵌套实体问题。
2.【左前】这个省略句如何处理？
具体解决方法就不展开了。此时我们就意识到最初规划的本体层不能覆盖这个数据了。一种解决办法就是扩充本体。如将部件细分为一级部件和二级部件。此时【右前门车门玻璃】就可切分为【右前门】和【车门玻璃】。

两个经验：
1.粒度划分得越细，可抽取覆盖的数据就越多，原始数据在抽取的信息量就越大，但关系抽取就变得越复杂，所以要找到一个抽取粒度的平衡点
2.在构建本体时需要熟悉数据，从数据出发构建本体，尽可能的考虑到位，因为，每一次本体层面的变动，都会导致数据集需要重新标注和修改。

什么是知识图谱的schema？

schema在不同的技术领域有不同的含义，在知识图谱中，schema等价于本体，构建知识图谱的schema就等价于构建知识图谱的本体，也就是构建各种概念及其关系。
定义好schema，就相当于制定好了知识图谱的顶层设计。
schema的作用：
1.用于规范结构化数据的表达
不满足schema预先定义好的实体对象及其类型，无法被添加到知识图谱中。
2.严格的schema设计，可便于知识推理
在这里插入图片描述

参考：https://blog.csdn.net/Solitarily/article/details/79705753

一定要构建schema吗？

是的，无论是自上而下还是自下而上的知识图谱构建方式，都会涉及到本体层的构建，但在实际构建过程中，特别是自下而上的方式中，可能在没有刻意去制定时，就完成了简单的本体设计。

两种知识图谱的组成划分方式

注意，不是分类方式，这两种方式是知识图谱构建阶段考虑的事情。
方式一：划分为本体层和实体层；
方式二：划分为模式层和数据层；
两种方式本质上是等价的

知识图谱和知识库是什么关系？

知识图谱是一种知识库，知识库范畴更广。和其它知识库的区别在于，知识图谱是网状的，使用图结构来存储知识。

知识图谱和语义网络是什么关系？

首先，知识图谱本质是语义网络；其次，是先有语义网络，再有知识图谱；
在表现形式上，语义网络和知识图谱相似，但语义网络更侧重于描述概念与概念之间的关系，而知识图谱则更偏重于描述实体之间的关联。
在很多说法中，知识图谱都说成是语义网络，没有问题。

知识图谱和NLP是什么关系？

NLP：自然语言处理，目前很火的研究方向。
可以参考知乎问题：知识图谱是NLP的未来吗？
https://www.zhihu.com/question/267242467/answer/1827583493
答案中有段话我很认同：

知识图谱不是NLP的未来，因为知识图谱是另外一种与NLP有很多交集的技术。在目前所有已知的发展方向中，知识图谱是最有可能长期和NLP互利共生的技术。

在这里插入图片描述

在我看来：
知识图谱是应用，NLP是工具。
这两者因为文本而产生了联系。因为现在场景的知识图谱都是基于文本来抽取知识的，所以在构建和应用过程中会用到大量的NLP算法和工具。
但知识图谱不是一定要NLP算法的，比如基于图像构建的知识图谱就不需要NLP。
所以，知识图谱也不是NLP的未来，只是它的一个应用方向罢了。但知识图谱有可能是人工智能的未来，因为它为机器提供了大量的先验知识，个人观点。

知识图谱和深度学习是什么关系？

知识图谱是应用，深度学习是工具
知识图谱的构建和应用不是非要深度学习的，以前没有深度学习的时候也有知识图谱。
没有深度学习如何构建知识图谱？
有两种方法：基于规则算法和基于统计学习方法。不用的方法优缺点不同，不是非要上深度学习的。再实际的知识图谱构建过程中，反而优先推荐尝试使用规则算法来快速构建第一版，搭建起知识图谱的雏形，在构建的过程中完善schema。后续根据规则算法的短板，再决定是否用统计机器学习和深度学习。

ChatGPT会对NLP、知识图谱产生怎么样的影响？

有一种主流的声音：NLP已死！
不可否认，ChatGPT很强大，对自然语言的理解和生成能力都非常强，NLP这个方向确实有点恼火了。
那知识图谱呢？NLP只是知识图谱构建过程和应用过程中的核心技术，当chatGPT取代了NLP，知识图谱何去何从呢？利用chatGPT构建知识图谱？还是说有了chatGPT后，不需要知识图谱了？
这真的是灵魂拷问了，见仁见智。
就目前来看（2023.3.21），个人的观点是：
ChatGPT是基于网络资源来做的，那么它利用的是开放域数据，作的是通用领域的知识图谱，那么它能取代的也是通用知识图谱，对于某一个细分领域，它的效果是不足的。
也就是，领域知识图谱它很难取代，因为他没有缺少这方面的数据，或者说应用粒度较粗。
那么做细粒度的领域知识图谱就有机会。
同时，能将知识图谱与其它数据结合其它就有更多机会。举例来说，在汽车行业，将知识图谱与汽车的车况数据进行结合做一些应用，那么这将是chatGPT永远不能涉足的地方，因为没有企业愿意将自己的数据进行公开，这涉及到数据安全的范畴。

知识图谱的优势是什么？

2023.3.30
知识图谱在应用过程中，经常就是雷声大雨点小的样子，看起来很厉害，但好像也就是看起来厉害的样子。
在最近的对知识图谱应用的思考过程中，🤔，我意识到基于知识图谱的推理和联想似乎才是他最大的优势所在，基于网状的结构，天然的适合从一个节点扩散到周围节点，这个特性，在推荐和智能问答中被用得的最多。

属性和关系和区别？

更新于2023.4.18
属性可以视为一种特殊的关系，属性的值视为内在属性，关系对应的实体作为外在属性，两者本质都是为了描述实体的自身信息和邻居信息。
那么什么时候作为属性，什么时候作为关系节点？
比如，中国特斯拉超级工厂位于上海，
这里面，“上海”可以作为“中国特斯拉超级工厂”的位置属性节点，也可以作为一个关系节点，两者的关系为“坐落于”。
既然都可以，该如何定？
一个经验是：若是你不希望对上海进行关联分析，那么就做为属性（因为属性节点是孤立的，没有联系的），比如上汽也坐落于上海，若上海都作为属性，那么很难将这两个属性关联起来，此时将上海作为关系节点，这这两个工厂都将有一条边指向它。
还有一点，作为关系节点时，关系还可以带其它属性，但是作为属性时，不能为属性增加属性。（比如：胡峥南-工作于-吉利汽车，就可以再为关系建立一个属性，since：2015，end：2021，这样就可以表达时间序列啦）