石油勘探开发知识图谱技术实现思路探讨
一、石油勘探开发知识图谱概念
有关知识图谱的定义有很多,在维基百科的官方词条中:“知识图谱是Google用于增强其搜索引擎功能的知识库。本质上, 知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。”
(一)本体与知识图谱
知识图谱本质上是利用语义网络图对数据的一种表达手段,在建立知识图谱之前首先需要建立本体,本体是语义数据模型,用于定义业务中事物的类型以及可用于描述它们的属性。本体是广义的数据模型,这意味着它们仅对具有某些属性的事物的一般类型进行建模,而并不包含有关我们业务中具体个体的信息。
本体是一个抽象概念,用计算机术语本体就是知识图谱的 schema。本体描述了最基本的业务概念模型,它是构建知识图谱最基础的工作。
使用本体作为一个框架,我们可以添加具体业务的真实数据来创建一个知识图谱。从这个意义上讲本体+数据资源=知识图谱。
(二)石油勘探开发本体构建
本体是对业务的高度抽象,石油勘探开发本体建设是要用一个高度抽象的模型去描述勘探开发所有的数据资源,由于勘探开发数据类型、存储方式差异巨大,如果希望从数据技术角度抽象一个通用模型来描述所有数据难度太大。根据石油数据的特点分析,我们知道所有的石油数据都是与某一个石油业务节点相对应的,也就是说一个业务节点对应着一个石油数据,我们可以转换一个思路,首先建立石油业务的本体,通过石油业务与数据之间的一一对应关系,将该本体转换为石油数据的通用描述模型(语义描述模型)。
因此石油本体建设实际上是对石油业务的抽象和描述。我们关注的是石油业务的本体建设,因此本体的类要围绕业务来设计,针对一个具体的业务,我们一般关心该业务的几个维度,如业务的对象目标是什么?业务处于勘探开发业务哪个阶段;业务属于哪个工作方面,是作业生产、研究还是管理;业务处于哪个工作流程阶段;该业务是属于哪个专业等。根据这个思路我们可以抽象出石油业务的本体如下:
1.类
任何一个业务工作节点都可以通过这六个类进行描述。实际工作中由于业务节点和业务数据是一一对应的关系,我们用业务数据代替业务节点。
2.关系
关系是连接两个类的属性,如井对象与钻井工作流程之间就有一组关系。
上述类关系中业务节点和每一个其它类都有一个对应关系,另外几个之间两两之间也有对应的关系,通过这些关系的建立就能够构建整个石油业务关系网络。
- 属性
描述一个对象(和类)所可能具有的属性、特征、特性、特点和参数。如井的基础数据等。
站在石油勘探开发业务角度,石油勘探开发知识图谱是描述石油勘探开发业务的各种实体或者业务概念及其关系,包括地下、地上各种对象目标及在这些工作目标上开展的各种生产作业、专业研究、工作管理工作等实体以及这些实体之间的业务关系。这个概念包含几个