一、什么是知识图谱
知识图谱就是把很多零散的知识用语义的关系来组成一个有关联的图。知识图谱是一种基于图的数据结构,由节点、边和属性值构成,每个节点表示一个“实体”。
知识图谱可以作为认知智能的基石:原因是它能解决语义理解问题,也能解决知识推理问题。
本质:基于图的语义网络
意在描述客观世界的概念实体事件及其之间的关系,并且对其进行语义建模。
目的:
早期的目的是把基于早起的文本万维网转换于基于实体连接的语义网,让机器具备认知能力,理解这个世界。
应用:
知识图谱目前的应用主要在搜索、智能问答、推荐系统等方面。知识图谱的建设,一般包括数据获取、实体识别和关系抽取、数据存储、图谱应用都几个方面。
分类:
- 垂直领域的知识图谱:指专门的某一个领域,比如医疗、工程机械、金融风控等等。构建垂直领域的知识图谱就是用这一个领域的知识来“织图”。
- 开放领域的知识图谱:包含了所有的垂直领域的知识图谱。
二、知识图谱的相关领域的发展
- 知识工程:知识库构建、基于规则的推理
- 数据库:RDF数据库系统、数据集成、知识融合
- 机器学习:知识图谱数的知识表示(Graph Embedding)
- 自然语言处理NLP:信息抽取、语义解析
知识图谱与自然语言处理:
知识图谱与数据管理
相关术语:
- 本体:用于面向特定领域的形式化地对于共享概念体系的明确又详细的说明。
- RDF(Resource Description
Framework):定义了一个简单的知识图谱数据模型,用于描述资源,属性和值之间的关系。描述的就是一个三元组<主语、谓语、宾语>。
-
RDFs:在RDF的基础上引入模式层,定义类、属性、关系、属性的定义域与值来描述与约束资源,构建最基本的类层次体系和属性体系,支持简单的上下位推理。
-
本体语言OWL:进一步扩展RDFs词汇,可声明类间互斥关系、属性的传递性等复杂的语义,支持基于本体的自动推理。
-
知识抽取:从海量的数据中通过信息抽取的方式获取知识。其方法根据所处理的数据源不同,分为:
·结构化数据
·半结构化数据
·非结构化文本数据(又叫文本信息抽取)
其中非结构化文本数据有:
–1、实体识别:从文本中识别出实体的命名性指标项,并标明其类别
–2、实体消岐
–3、关系抽取:自动识别实体之间的具有某种语义关系
–4、事件抽取:从描述事件的文本中抽取出用户感兴趣的事件信息并以结构化的形式呈现出来
- 知识融合:通过对多个相关知识知识图谱的对齐、关联和合并,使其称为一个有机整体,以提供更全面知识。实体对齐必然涉及到实体相似的计算,假设两个实体的记录x和y,x和y在第i个属性上的值是xi,yi,那么需要通过两步计算:属性相似度和实体相似度。
-