1. 知识图谱的定义
知识图谱(Knowledge Graph)是关于某个主题的知识(Knowledge )的结构化表示所组成的关系网络,它由节点和(连接不同节点的)边构成,本质上是一种语义网1(Semantic Web)。知识图谱中的每个节点代表该主题内一个实体(entity)或概念(class),边代表相连实体或概念间的语义关系(relation)。
2. 相关概念
知识图谱的定义中涉及语义网络、知识、概念、实体、关系等概念,它们的解释如下:
-
语义网(Semantic Web):是由万维网联盟的蒂姆·伯纳斯-李(Tim Berners-Lee)在1998年提出的一个概念,它的核心是:通过给万维网上的文档(如: HTML文档)添加能够被计算机所理解的语义(元数据),从而使整个互联网成为一个通用的信息交换介质,所以也被称为 Web 3.02。
-
知识(Knowledge ):是知识图谱的价值核心,它是对被选中信息的理解;具体来说,在知识图谱中,知识由概念、实体和关系所组成的逻辑关系来表示。
-
信息(Information):是经过解释整理,被赋予意义的数据(即:结构化数据) 。
-
数据(Data):是未经处理过的事实或信号的记录等(即:非结构化数据) 。
3. 知识图谱的组成要素
-
本体(ontology):是对知识数据描述定义和管理的系统,这个系统被称为知识体系(Schema)或本体(Ontology),它不仅包含对领域知识概念(class)的分类,而且完整地包含了概念分类、概念表达和概念关系等定义模块,是一套存储和管理知识图谱中的概念知识(class)的结构。
-
概念(class):是对客观世界中一类相同事物的不同个体的总称,如水果、公司、演员等,它类似面向对象编程中类的概念,可以看做实体的类别标签。
-
实体(entity):也称实例(instance),是客观世界中一个真实事物的表示,如:苹果是一个水果概念的实体。
-
关系(relation):是客观世界中真实存在的两个事物间存在的逻辑关系
3. 知识的结构化表示:知识表示
知识表示(knowledge representation)是用易于被计算机处理的方式来描述人脑知识的方法3。它可分为符号表示和向量表示(Embeding)两类:
- 符号表示可解释性好、开发建设简单,但不易刻画隐式知识,且进行知识推理困难;
- 向量表示鲁棒性好、易于刻画隐式知识且易于进行知识推理,但它也丢失了符号表示的可解释性,且需要基于符号表示的知识图谱二次开发得到,实现复杂、开发成本更高。
更多详细信息请阅读作者文章:知识图谱:知识表示。