编者按
Cambridge Semantics Inc.公司近日发布了本篇白皮书,《Knowledge Graphs: A Key Technology Enabling Efficient Information Exchange at Scale》。该白皮书简要说明了为什么传统的数据管理方案(如data warehousing和ETL),甚至较新的技术(如data lake)都无法满足当今快速增长的信息需求。以及语义和图形驱动的企业数据平台是如何以独特的方法集成、融合并呈现不同数据源(结构化和非结构化,内部和外部)的数据,这是其他方法无法实现的。
本文作者北京大学闫涵,将对原文进行概要阐述。
文末提供文章获取方式。
知识图谱:大规模高效信息交换的关键技术
长期以来,政府机构已经意识到信息的共享和使用有助于提高服务效率。但是,信息共享也带来了新的挑战:如何高效解释大量不同来源的数据。机构必须快速处理离散的数据,以便及时为客户和合作伙伴提供准确的信息。
但是,由于技术原因,机构提供的数据访问不能有效帮助用户的决策,需要一种新颖的现代化数据发现和集成的方法。
本文简要说明了为什么传统的数据管理方案(如data warehousing和ETL),甚至较新的技术(如data lake)都无法满足当今快速增长的信息需求。以及语义和图形驱动的企业数据平台是如何以独特的方法集成、融合并呈现不同数据源(结构化和非结构化,内部和外部)的数据,这是其他方法无法实现的。
通常情况下,用户请求数据的流程:
• 用户发送一个请求信息(request for Information, RFI)到集中的报告和分析中心。
• 数据分析师接收RFI,调查企业并确定哪些相关数据源可用。
• 分析师对可用的数据源进行分类,在这些数据源中进行检索,并将结果复制到表格中。
• 分析师将每个数据源的查询结果汇总成一个大的表格,将汇总结果以及每个源的数据发送给用户。
• 用户解释分析编译后的数据。
该过程需要大量人力,耗时且容易出错。在实践中,从RFI提交到答复的时间大约为数周。
多年来一直采用数据仓库的方式解决这一问题。
数据仓库(data warehouses)
数据仓库通常被定义为一个中央存储库,存放一个或多个不同来源处理过的数据,其中包含当前和历史数据,这些数据用于为整个企业的运营用户创建分析报告。
数据仓库方法取得了一些成功,但也存在三个主要问题:
高昂的前期成本
数据仓库对结构化数据提供企业视图,来响应运营需要的一组特定用例,数据必须从多个系统整合到一个单一的存储库中,这将导致高昂的前期成本:
• 从系统复制,清洗和增强数据到数据仓库的过程,简称提取-转换-负载(ETL),开发成本很高。
• “boil the ocean” 企业方法需要与跨业务的事务专家(SMEs)合作。
总成本(TCO)随时间的推移增加
ETL流程通常以供应商专有格式定义,由于供应商专有而增加了维护成本。此外,静态数据仓库模式基于当前的组织任务规则和数据模型。当这些规则、模型、操作用例或数据发生更改时,仓库需要进行大规模更改。
缺乏数据发现
数据仓库可以处理的用例局限于模型和已集成到模型中的业务规则。对于模型不支持的数据,分析人员将无法利用仓库进行数据发现。
一个全新的,现代化的数据发现和集成平台可以缩短决策周期解决上述问题,该平台支持企业级数据构造。数据构造将企业数据源的不同语法和结构规范化为图形模型,然后将概念及他们之间的关系协调进语义层。此过程创建了一个集成信息的跨企业视图。换句话说,“系统”将信息汇总并合成为可用于分析的数据资产,用户可以根据需要对其进行访问。使用这种语义方法来表示任何数据资产及他们之间的关系,就可以创建能够跨越组织上下文的关联知识图(请参见下面的示例)。
通过数据构造,知识工作者可以按需获取数据,而无需提交RFI,无需依靠人工分析人员来发现,访问,集成和汇总数据。决策周期从数周缩短至即时。同时,分析人员从交易性数据准备任务转移到更高阶的认知任务。
Anzo是一个可扩展的知识图谱平台,可简化和加速数据的集成、建模和混合,支持高级分析。
映射和探索企业数据。Anzo映射企业数据以记录其位置、内容及上下文业务含义,显示数据集之间的连接,支持快速可视化数据探索和发现。
构建混合的分析就绪数据集。与Anzo数据科学家和业务中的其他数据消费者一起,通过迭代地清洗,转换,排列和链接来自多个磁盘的数据来构建混合的分析就绪数据集。
面向企业的数据管理。Anzo包含一组强大的企业级治理功能,可以更加轻松快捷地确保所有数据的安全性,以防数据在传输过程中被提取。
Anzo建立在高性能的图形数据库引擎上,该引擎使用内存中的MPP处理模型以极快的速度对数据集执行查询,从而实现了企业规模的敏捷数据集成,转换和可视化。Anzo利用W3C的RDF,OWL,SKOS和SHACL等图形标准来构建元数据和数据的知识图谱,可以对其进行有力的探索,转换和分析,同时还可以确保开放数据的互操作性以及与其他系统的集成。Anzo是一个开放式覆盖平台,允许用户在不替换或破坏任何现有流程或平台的情况下,针对基础数据资源构建知识图谱。Anzo与企业元数据、管理、安全控制和策略相结合,并包含一个RESTful API,可将其无缝集成到其他流程中。
原文链接
https://www.cambridgesemantics.com/solutions-3/government-solutions/