简介:随着2021年双11的完美落幕,实时数仓技术在阿里双11场景也经历了多年的实践和发展。从早期的基于不同作业的烟囱式开发,到基于领域分层建模的数仓引入,再到分析服务一体化的新型融合式一站式架构,开发效率逐步提升,数据质量更有保证,也沉淀了更多技术创新,让我们看到了一些未来数仓开发、应用的可能性和趋势。下面我们来聊聊从阿里双11看到的实时数仓发展的一些趋势。
作者 | 梅酱、果贝
来源 | 阿里技术公众号
作者:果贝,阿里云资深技术专家 ,实时数仓Hologres负责人
2022年1月7日,阿里云实时数仓Hologres举行了年度发布会,在发布会上,来自阿里的资深技术专家从阿里的核心场景出发,为大家解读了实时数仓的新发展趋势“在线化、敏捷化、一站式”。通过本文,我们将会深入解读实时数仓发展所面临的问题,以及核心发展趋势,以帮助大家更好的做产品选型和数仓规划。
实时数仓是现在大数据领域非常热门的一个概念(和它同热度的大概就是湖仓一体了)。经过十多年的发展,大数据已经成为每家公司的标配。传统上,离线数仓(开源以Hive/Spark为代表,闭源以阿里MaxCompute、Snowflake、AWS Redshift、Google BigQuery等为代表,以及Vertica、Oracle、HANA等传统IT厂商),流式计算(以Flink/Spark Structured Streaming为代表),数据服务层(HBase、MySQL、ES、Redis等)共同组成了大数据处理的标准架构:Lambda架构。Lambda架构提供了实时数据的服务(serving)能力。但Lambda架构的典型问题是开发复杂、数据冗余和分析不灵活。
近几年,以ClickHouse、Apache Doris、阿里Hologres等为代表的实时数仓兴起,通过实时写入明细数据+灵活交互式查询部分实现了去Lambda架构,在实时性、灵活性、成本、管理和运维等多方面都达到了较好的平衡。
随着2021年双11的完美落幕,实时数仓技术在阿里双11场景也经历了多年的实践和发展。从早期的基于不同作业的烟囱式开发,到基于领域分层建模的数仓引入,再到分析服务一体化的新型融合式一站式架构,开发效率逐步提升,数据质量更有保证,也沉淀了更多技术创新,让我们看到了一些未来数仓开发、应用的可能性和趋势。
下面我们来聊聊从阿里双11看到的实时数仓发展的一些趋势。
一 实时数仓已经成为业务标配
第一个趋势是实时数仓已经成为标配。
业务对时效的要求、对灵活性的要求越来越高,从而使得实时数据变为一种刚需。而实时数仓在成本、灵活性上的巨大优势使得业务优先选择实时数仓作为实时数据的生产、存储和使用平台。在阿里巴巴,Hologres服务了约90%的BU,集群规模超过了60万core,并保持100%的增长速度。在这些业务中,有较常见的实时数仓场景,比如:
1、数字化运营:这种场景上游对接Flink进行数据流式加工;下游对接BI工具、数据大屏