1.知识图谱概念
知识图谱本质上是基于图的语义网络,表示实体和实体之间的关系。
构建知识图谱的目的,就是让机器具备认知能力,理解这个世界。
2.知识图谱研究的多个维度
2.1 知识图谱相关发展领域
知识图谱是Web和大数据时代的知识工程新的发展形态。
知识工程的核心:知识库和推理引擎
。
• 领域本体的构建:面向特定领域的形式化地对于共享概念体系的明确而又详细的说明
• 知识抽取:从海量的数据中通过信息抽取的方式获取知识
• 知识融合:通过对多个相关知识图谱的对齐、关联和合并,使其称为一个有机的整体,以提供更全面知识
传统知识工程 Vs.以知识图谱为代表的新一代知识工程
“Knowledge is the power in AI” — Edward Albert Feigenbaum
2.2 知识本体
2.3 知识图谱数据模型
2.4 知识抽取
知识获取的目标是从海量的文本数据中通过信息抽取的方式获取知识,其方法根据所处理的数据源的不同而不同。分为:
- 结构化数据
- 半结构化数据
- 非结构化数据
文本信息抽取:从非结构化文本数据中进行支持抽取:实体识别;实体消歧;关系抽取;事件抽取
2.5 知识融合
实体对齐必然涉及到实体相似度的计算,假设两个实体的记录x和y,x和y在第i个属性上的值为xi,yi,那么需要通过两步计算:
-
属性相似度: 综合单个属性相似度得到的属性相似度向量[sim(x1,y1),sim(x2,y2),…sim(xN,yN)]
-
实体相似度: 根据属性相似度向量得到实体的相似度
-
属性相似度计算方法:常用的有编辑距离,集合相似度(Jaccard系数,Dice),向量相似度等
-
实体相似度计算方法: 比如聚合,聚类,表示学习等
2.6 知识图谱和自然语言处理
知识图谱研究和自然语言处理是双向互动关系
2.7 信息抽取
实体识别:从文本中识别出实体的命名性指称项,并标明其类别
-
三大类:实体类、时间类、数字类
-
七小类:人名、机构名、地名、时间、日期、货币和百分比
2.8 语义解析之语义搜索
是指搜索引擎的工作不再拘泥于用户所输入请求语句的字面本身,而是透过现象看本质,准确的捕捉到用户输入语句后面真正意图,并以此来进行搜索,从而更准确的向用户返回符和其需求的搜索结果
2.9 语义解析之智能问答
2.10 语义解析之知识问答
2.11 知识图谱和数据管理
知识图谱本质上是多关系图,通常用 “实体”来表达图里的结点,用关系来表达图里的边
-
关系型数据库:实体与实体之间的关系通常都是用外键来实现的,对关系的查询需要大量join操作
-
图数据库:图模型建模实体(结点)和实体之间的关系(边),在对关系的操作上有更高的性能
知识图谱的存储管理可分为:
基于关系的知识图谱存储管理
原生知识图谱存储管理–RDF/属性图
分布式知识图谱存储管理
2.12 知识图谱与机器学习
知识表示学习:
- 背景:基于网络形式的知识表示存在数据稀疏问题和计算效率问题
- 知识表示学习:主要面向知识图谱中的实体和关系进行表示学习,使用建模方式将实体和向量在低维稠密向量空间中,然后进行计算和推理
- 优点:显著提升计算效率,有效缓解数据稀疏,实现异质信息融合
- 应用:知识图谱补全,相似度计算,关系抽取,自动问答,实体链指
3.从人工智能看待知识图谱
符号主义(symbolicism)
,又称为逻辑主义(logicism)、心理学派(psychologism)或计算机学派
(computerism),其主要原理为认知过程就是在符号表示上的一种运算
连接主义(connectionism)
,又称为仿生学派(bionicsism)或生理学派(physiologism),其主要
原理为智能活动是由大量简单的单元通过复杂的相互连接后并行运行的结果。
当前典型研究:深度学习、深度神经网络
知识图谱起源于符号主义