知识图谱用于表达更加规范的高质量数据。一方面,知识图谱采用更加规范而标准的概念模型、本体术语和语法格式来建模和描述数据;另一 方面,知识图谱通过语义链接增强数据之间的关联。这种表达规范、关联 性强的数据在改进搜索、问答体验、辅助决策分析和支持推理等多个方面 都能发挥重要的作用。
知识图谱方法论涉及知识表示、知识获取、知识处理和知识利用多个方面。一般流程为:首先确定知识表示模型,然后根据数据来源选择不同的知识获取手段导入知识,接着综合利用知识推理、知识融合、知识挖掘等技术对构建的知识图谱进行质量提升,最后根据场景需求设计不同的知识访问与呈现方法,如语义搜索、问答交互、图谱可视化分析等。下面简要概述这些技术流程的核心技术要素。
知识来源
可以从多种来源获取知识图谱数据,包括文本、结构化数据库、多媒体数据、传感器数据和人工众包等。每一种数据源的知识化都需要综合各种不同的技术手段。例如,对于文本数据源,需要综合实体识别、实体链接、关系抽取、事件抽取等各种自然语言处理技术,实现从文本中抽取知识。
结构化数据库如各种关系数据库,也是最常用的数据来源之一。已有的结构化数据库通常不能直接作为知识图谱使用,而需要将结构化数据定义到本体模型之间的语义映射,再通过编写语义翻译工具实现结构化数据到知识图谱的转化。此外,还需要综合采用实体消歧、数据融合、知识链接等技术,提升数据的规范化水平,增强数据之间的关联。
语义技术也被用来对传感器产生的数据进行语义化。这包括对物联设备进行抽象,定义符合语义标准的数据接口;对传感数据进行语义封装和对传感数据增加上下文语义描述等。人工众包是获取高质量知识图谱的重要手段。例如,Wikidata和Schema.org都是较为典型的知识众包技术手段。此外,还可以开