实时离线一体化概述
在讲实时离线一体化概述前,可以先回顾一下之前两位阿里同学的精彩演讲。 离线实时一体化数仓与湖仓一体--云原生大数据平台的持续演讲
https://developer.aliyun.com/article/804337
云原生离线实时一体化数仓建设与实践:
https://developer.aliyun.com/article/871926
当前从第一代离线数仓发展到第二代实时数仓,再到第三代实时离线一体化数仓,演进过程和价值可以参考上述两篇文章,今天分享的主要内容是实时离线一体化数仓的新能力。
大数据数仓体系从“纷繁芜杂”的一个架构演进到“化繁为简”的实时离线一体化数仓,其核心是基于流式计算引擎对接了 MaxCompute + Hologres离线及实时数仓,并通过互通实现数据的分层处理 。当前这套架构适用于海量数据的数据治理、离线分析、实时分析、数仓集市、多模分析、机器学习在线模型等场景,帮助客户构建一站式的大数据分析平台,释放企业数据价值。
当前解决方案适用场景有数据实时分析+数据离线分析的业务,海量数据计算+分析实时性要求较高的业务。,海量数据分析、点查。多源、多样、流量数据+业务数据的分析服务业务。在实际业务中,如果有对时效性要求比较低的,不需要用到实时分析,还是使用 MaxCompute 离线数仓为解决方案。如果业务场景中,类似在线告警、在线预测等,可以理解为整体链路没有用到离线数据跟实时数据的一个结合。那就是典型的解决方案,比如实时计算Flink+Hologres做为实时性比较高的实时数仓解决方案。
实时离线一体化,主要侧重强调适配于有离线业务和实时在线业务混合的综合应用场景,这样可以解决多元多样流量数据跟业务数据的一个分析服务业务。
实时离线一体化优势
从数据写入来看呢,有实时数据和离线数据,流式数据都可以支持。MaxCompute 在数据写入侧的特点是支持高QPS写入后,即可见即可查。从数据写入的通道来看呢,当前实时离线一体化支持批量数据通道、流式数据通道、实时数据通道。以及在数据写入之前比如kafka、Flink这种中间插件的支持,从一个数据源,从消息服务中间件,把数据写入到 MaxCompute 中间零代码开发,可以直接用 MaxCompute 支持的插件来做。Hologres本身支持高性能写入和实时写入更新,以及写入 即可查的能力,MaxCompute+Hologres相结合,覆盖了批量数据写入、流式数据写入、实时数据写入以及写入即可查的产品支持。
数据计算是多引擎支持,基于 MaxCompute 支持EB量级数据计算,在 MaxCompute 本身计算引擎内支持spark、MR、SQL。数据写入后,MaxCompute支持用 spark 流式处理,也可以用 MaxCompute SQL批处理。多引擎支持下实时计算延迟到秒级乃至毫秒级,单个作业吞吐量可达到百万级。
在数据共享互通方面,是做到了MaxCompute&Hologres的数据互通,