一.知识图谱(knowledge graph):
基于图的一种数据结构,使得知识域可视化,显示知识发展进程与结构关系。可视化的图谱形象展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的。
2.三要素: 实体 关系 属性。 由节点(entity、concept)、边(relation)及两者对应的属性(property)构成。
a.实体: 基本元素,具有可区别性,独立存在的事物。
b.概念: 实体的集合。
c.属性: 实体的特征,指向特征值,类似与关系的“类别”。
d.关系: 实体间的关联。
二.图谱架构:
1.数据采集:
采集数据集一般可以通过网络爬虫、数据库获取、人工制作数据或者在相应官网上下载处理过的数据,采集的数据一般由三种形态:结构化数据(人工事先整理) 半结构化数据(Web形式显现的内容eg百度百科 XML形式存在) 非结构化数据(图片音频文本等没有任何结构,是知识图谱构建的主要数据来源)
\2. 知识抽取:属性抽取 关系抽取 实体抽取
\3. 知识融合:共指消解 实体消歧
\4. 知识加工:知识推理 知识更新
三.关键技术:
1.知识表示: 计算机语言表示,计算机逻辑符号推理
2.知识存储: 基于数据结构选择合适的存储方案。
3.知识抽取: 从不同数据中抽取特定目标知识,使其能够结构化表示。
4.知识融合: 不同数据来源可能表征同一数据的属性,对其进行融合互补。
5.知识推理: 通过已知知识推断出新知识,进而对图谱纠错完善。
四: 理解
-
知识图谱的本质:
Web视角:像建立文本之间的超链接一样,建立数据之间的语义链接,并支持语义搜索。
自然语言处理(NLP)视角:怎样从文本中抽取语义和结构化数据
人工智能(AI)视角:怎样利用知识库来辅助理解人的语言
数据库(DB)视角:用图的方式去存储知识
知识图谱对于人工智能的价值就在于,让机器具备认知能力。有了知识的人工智能会变得更强大,可以做更多的事情。因为更强大的人工智能,可以帮我们更好地从客观世界中去挖掘、获取和沉淀知识,这些知识和人工智能系统形成正循环,两者共同进步。
-
知识图谱、大数据、自然语言处理关系:
-
自然语言处理(NLP)与知识图谱(KG):
KG与NLP同属人工智能认知层面的前沿技术,要使机器达到真正的智能,仅仅做到感知层面的识别(如人脸识别、视网膜识别)是不够,还应使它们能根据已有知识和上下文正确推理出新的知识以及联系。知识图谱是在NLP的基础上发展而来,有强大的关联分析和推理能力,更好第实现人机间的交互。
自然语言理解中分词方法的发展,从传统的基于规则的机械方法、基于统计的分词方法发展到如今基于深度学习的分析方法,神经网络引入为分词规范、歧义切分、未登录识别等诸多分词难题提供解决解决方案;同样知识图谱的构建依赖于大量的知识,而大部分的信息都是非机构化的,利用深度学习技术是解决知识获取的重要手段。
五、案例:
基于知识图谱的问答系统