背景
每当双11全球购物狂欢节钟声响起,上千万用户涌入天猫、淘宝,流畅的购物体验背后是阿里工程师用技术打造出的营地,支撑了每年双11所带来的数据洪峰。2020年11月1日至11月12日0:00,天猫“双11”累计总交易额达4982亿元,物流订单总量达到23.21亿单。这一切的背后都离不开实时计算技术。
Dataphin作为一款企业级智能数据构建与管理产品,具备全链路实时研发能力,从2019年开始支撑集团天猫双11的实时计算需求。就以下文介绍Dataphin实时计算的能力。
传统的数仓架构
在数仓建设过程中,一般来说都是先建设离线数仓,同时围绕着离线数据构建应用。然后随着业务的发展或者体验的优化,再建设实时计算的链路去提升数据的时效性。
在这个过程中相似的代码写两遍就难以避免,还会出现实时和离线口径不一致,分别维护成本增加等各种各样的问题。
传统的数仓架构流与批从存储计算中分离带来以下的问题:
- 效率问题:流批底层数据模型不一致,导致应用层做大量的拼接逻辑(同比、环比、二次加工等),搭建效率低且容易出错
- 质量问题:一个业务逻辑,两个引擎两套代码,SQL逻辑不能复用,数据一致性和质量问题难以保证
- 成本问题:
- 流批存储系统隔离(面向不同写入场景),提供的数据服务不一,维护成本高
- 手工建数据同步任务,开发成本/存储成本高(两份)
- 批处理&流处理集群无法做到错峰,资源利用率低
Dataphin流批一体优势
为解决传统数仓架构的存储计算分离的问题,有了“流批一体”的思路:
- 流批存储透明化,查询逻辑完全一致,应用端接入成本大幅降低,点查/OLAP分析统一支持
- 服务层统一存储,无需手工同步,无重复存储
- 一套代码,两种计算模