数据相关
数据是知识图谱的基石,知识图谱的数据来源主要有两种:自有数据(自身采集 或拥有等)和外源数据。自有数据由建设者因特定的业务需求而采集获取或经过特定加工处理形成且被自己所拥有的数据;外源数据是通过互联网爬取、开放共享或和数据交易所获得的数据。实际应用中,数据来源多样性造成数据标准不统一、数据质量差,导致多源数据歧义、噪声大、数据间关联关系不明确等问题。数据歧义和关系不明确对知识图谱构建和推理形成了巨大的阻碍,对知识图谱应用成效的提升和技术的进步提出了巨大的挑战。
多源数据依托于不同的业务目需求和工具产生,行业跨度大且缺乏统一的业务数据模型标准和描述规范,异构、歧义、噪声大特征显著,尤其是通过互联网获取的网络知识。对于知识图谱而言,数据歧义体现为实体、概念的属性描述缺乏精确性、一致性或者实体间关系错置、扭曲,导致图谱结构混乱及语义描述相互冲突、推理机制紊乱、推理结果扭曲失真,最终对图谱应用成效产生巨大副作用。噪声大是互联网数据一大显著特征,海量的噪声数据稀释了数据信息内容和价值密度。数据充斥大量的噪声,将会在图谱中产生大量孤立、无用的实体和属性关系,这些实体和关系还会占据大量的存储空间和关系路径,使图谱实体层变得冗余、繁杂,不仅不能加快图谱推理速率、提升推理精度,反而导致存储资源的浪费和图谱推理应用的低效。
关联是知识图谱的核心和本质所在,知识图谱依赖于关系连接的方式将一个个实体、概念进行关联形成关系网以实现知识的表示、推理,完成知识服务引擎。数据间的关联性是否明确、完备是决定图谱实体间关系是否清晰、完整的关键。然而,在实际应用当中,多源异构数据之间的关联性并非严格明确的。其一,数据间的关联性指向类型不明确,具体表现为关联性作用为相关关系还是因果关系,有