1 前言
“世上无难事,只要不集成。”
数据中台开发阶段的前期工作,最困难就是数据集成了。刚开始数据建模做的好坏,业务做的好坏,似乎都有情可原,但是数据集成不上来,一切业务远景就如地基不牢的高楼随时都可能倾覆。
从之前的项目经验来看,数据加工的建模方法和SQL语言都是较为标准化的,在项目中与阿里云第一次合作的伙伴和客户对于数据集成的学习和掌握都是较为困难。尤其是之前没有类似需要数据集成系统的企业,对数据集成工作的理解不是过于简单,就是过于担忧,又或者过于严苛。究其原因,还是对数据集成工作做什么都不了解,进而有很多误解。
2 DataWorks的数据集成
早年DataWorks是只有离线集成,没有实时集成的功能,因为其定位主要是基于MaxCompute的离线开发平台。但是这几年在面向DataOps的发展上,定位已经是全能的大数据开发平台,可以基于多种引擎做数据开发。例如holo这种实时数仓的产品。所以,实时数据集成也是箭在弦上,终于做了一些对应的功能,作为一个资深用户还是很惊喜。
但是目前从实际使用上来看,实时集成功能虽然弥补了功能上的缺陷,但是与离线集成的强大比起来,还是有所欠缺。
首先是惊喜的部分。实时数据集成的直接构建了一键同步的功能,把复杂的配置实时同步任务,归档到log表,然后从Log表又merge到全量表的所有逻辑都包含在内了,真的实现了一步获得数据。从实际使用上来看,客户和伙伴学习配置一个实时数据集成任务与学习配置一个离线任务的成比起来更低。大部分人一次就配置成功,获得感很强。从资深用户的角度看,这种强大的整合能力也让实际运维的任务变得非常少ÿ