正文:
本篇内容将通过五个部分来介绍云原生离线实时一体化数仓建设与实践。
一、离线实时一体化数仓建设难点
二、离线实时一体化数仓技术演化
三、阿里巴巴离线实时一体化数仓建设实践
四、离线实时一体化数仓参考架构
五、未来实时数仓核心趋势展望
一、离线实时一体化数仓建设难点
随着时代的发展,数据分析由通过实时大屏洞察业务变化,逐步转向数据决策和数据在线转化。实时数据的精细化运营,让每个人对数据需求,出现了指数级增长。另一方面,数据在线推荐,风控系统也严重依赖于实时数据,数据分析的力度和强度有着显著地提升。
面对蓬勃发展的数据需求,我们的数据架构也变得越来越复杂。无论是订单数据,还是行为数据,它们都通过消息中间件采集,然后经过多条加工链路。一份数据经过离线,实时,在线之后,会产生多份数据集。这套架构让运维成本,开发成本变得很高。
整个架构高成本的背后是因为有多套组件和多套存储。而多套存储带来了多份数据孤岛,导致数据的一致性无法保障。每个系统都有自己的运维方式,开发方式和使用方式。从而增加了运维成本和学习成本。
当我们回顾计算机行业的发展。在60年代,每个程序员在开发系统时,都需要自己通过离散文件,网络文件或层级文件存储状态。在80年代,大家可以通过描述的方式分析数据。到了大数据时代,数据的存储方式多种多样,同样一份数据在各个引擎里有不同的选型。虽然不同的技术在可扩展性,并行能力,吞吐能力上有所不同。但至今为止,我们分析问题的方式并发生没有本质变化。所以我相信随着数据技术的进步,数据存储还会有一个融合的过程。
我认为数仓平台的时效性有两个概念,即实时和准时。其中,只有机器做决策的场景需要实时。比如端到端数据产生和延迟,大屏风控,计算延迟,事件驱动等等。而人类做决策的时间,一般以分钟/小时/天/月为准,极度新鲜的数据并不影响人类决策的本质。只有改变决策结果的系统,才是优秀的实时系统。比如海量数据的灵活分析,自助分析等等。
大家有的时候为了数据的时效性,往往会忽视数据的质量。如果一个数仓平台只追求时效性,我们只能看到一个结果值。不但很难发现数据的质量问题,二修正成本也很高。所以一个优秀的实时数仓平台,其数据一定要可检查,可修正。
数仓平台实时化的第三个需求就是降低成本。这里主要分为开发成本,运维成本和人力成本。其中,最核心的是开发成本。我们不但要让业务与技术解耦,实现数据资产复用&#