知识图谱:大规模高效信息交换的关键技术

编者按

   Cambridge Semantics Inc.公司近日发布了本篇白皮书,《Knowledge Graphs: A Key Technology Enabling Efficient Information Exchange at Scale》。该白皮书简要说明了为什么传统的数据管理方案(如data warehousing和ETL),甚至较新的技术(如data lake)都无法满足当今快速增长的信息需求。以及语义和图形驱动的企业数据平台是如何以独特的方法集成、融合并呈现不同数据源(结构化和非结构化,内部和外部)的数据,这是其他方法无法实现的。

 

本文作者北京大学闫涵,将对原文进行概要阐述。

 

文末提供文章获取方式。

 

图片

 

 

知识图谱:大规模高效信息交换的关键技术

长期以来,政府机构已经意识到信息的共享和使用有助于提高服务效率。但是,信息共享也带来了新的挑战:如何高效解释大量不同来源的数据。机构必须快速处理离散的数据,以便及时为客户和合作伙伴提供准确的信息。

但是,由于技术原因,机构提供的数据访问不能有效帮助用户的决策,需要一种新颖的现代化数据发现和集成的方法。

本文简要说明了为什么传统的数据管理方案(如data warehousing和ETL),甚至较新的技术(如data lake)都无法满足当今快速增长的信息需求。以及语义和图形驱动的企业数据平台是如何以独特的方法集成、融合并呈现不同数据源(结构化和非结构化,内部和外部)的数据,这是其他方法无法实现的。

通常情况下,用户请求数据的流程:

•       用户发送一个请求信息(request for Information, RFI)到集中的报告和分析中心。

•       数据分析师接收RFI,调查企业并确定哪些相关数据源可用。

•       分析师对可用的数据源进行分类,在这些数据源中进行检索,并将结果复制到表格中。

•       分析师将每个数据源的查询结果汇总成一个大的表格,将汇总结果以及每个源的数据发送给用户。

•       用户解释分析编译后的数据。

图片

 

该过程需要大量人力,耗时且容易出错。在实践中,从RFI提交到答复的时间大约为数周。

多年来一直采用数据仓库的方式解决这一问题。

数据仓库(data warehouses)

数据仓库通常被定义为一个中央存储库,存放一个或多个不同来源处理过的数据,其中包含当前和历史数据,这些数据用于为整个企业的运营用户创建分析报告。

图片

 

数据仓库方法取得了一些成功,但也存在三个主要问题:

高昂的前期成本

数据仓库对结构化数据提供企业视图,来响应运营需要的一组特定用例,数据必须从多个系统整合到一个单一的存储库中,这将导致高昂的前期成本:

•       从系统复制,清洗和增强数据到数据仓库的过程,简称提取-转换-负载(ETL),开发成本很高。

•       “boil the ocean” 企业方法需要与跨业务的事务专家(SMEs)合作。

总成本(TCO)随时间的推移增加

ETL流程通常以供应商专有格式定义,由于供应商专有而增加了维护成本。此外,静态数据仓库模式基于当前的组织任务规则和数据模型。当这些规则、模型、操作用例或数据发生更改时,仓库需要进行大规模更改。

缺乏数据发现

数据仓库可以处理的用例局限于模型和已集成到模型中的业务规则。对于模型不支持的数据,分析人员将无法利用仓库进行数据发现。

 

一个全新的,现代化的数据发现和集成平台可以缩短决策周期解决上述问题,该平台支持企业级数据构造。数据构造将企业数据源的不同语法和结构规范化为图形模型,然后将概念及他们之间的关系协调进语义层。此过程创建了一个集成信息的跨企业视图。换句话说,“系统”将信息汇总并合成为可用于分析的数据资产,用户可以根据需要对其进行访问。使用这种语义方法来表示任何数据资产及他们之间的关系,就可以创建能够跨越组织上下文的关联知识图(请参见下面的示例)。

图片

 

通过数据构造,知识工作者可以按需获取数据,而无需提交RFI,无需依靠人工分析人员来发现,访问,集成和汇总数据。决策周期从数周缩短至即时。同时,分析人员从交易性数据准备任务转移到更高阶的认知任务。

 

图片

 

Anzo是一个可扩展的知识图谱平台,可简化和加速数据的集成、建模和混合,支持高级分析。

映射和探索企业数据。Anzo映射企业数据以记录其位置、内容及上下文业务含义,显示数据集之间的连接,支持快速可视化数据探索和发现。

构建混合的分析就绪数据集。与Anzo数据科学家和业务中的其他数据消费者一起,通过迭代地清洗,转换,排列和链接来自多个磁盘的数据来构建混合的分析就绪数据集。

面向企业的数据管理。Anzo包含一组强大的企业级治理功能,可以更加轻松快捷地确保所有数据的安全性,以防数据在传输过程中被提取。

Anzo建立在高性能的图形数据库引擎上,该引擎使用内存中的MPP处理模型以极快的速度对数据集执行查询,从而实现了企业规模的敏捷数据集成,转换和可视化。Anzo利用W3C的RDF,OWL,SKOS和SHACL等图形标准来构建元数据和数据的知识图谱,可以对其进行有力的探索,转换和分析,同时还可以确保开放数据的互操作性以及与其他系统的集成。Anzo是一个开放式覆盖平台,允许用户在不替换或破坏任何现有流程或平台的情况下,针对基础数据资源构建知识图谱。Anzo与企业元数据、管理、安全控制和策略相结合,并包含一个RESTful API,可将其无缝集成到其他流程中。

 

原文链接

https://www.cambridgesemantics.com/solutions-3/government-solutions/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值