解读 Dataphin 流批一体的实时研发

Dataphin作为企业级智能数据构建与管理产品,解决了传统数仓架构的存储计算分离问题,提供流批一体的实时研发能力。通过流批存储透明化,减少重复存储和开发成本,提升研发效率和资源利用率。此外,Dataphin还提供开发生产隔离、元数据管理、实时质量监控等功能,确保数据质量和稳定性。在2020年双11期间,Dataphin成功支撑了实时数据大屏的需求。
摘要由CSDN通过智能技术生成

背景

每当双11全球购物狂欢节钟声响起,上千万用户涌入天猫、淘宝,流畅的购物体验背后是阿里工程师用技术打造出的营地,支撑了每年双11所带来的数据洪峰。2020年11月1日至11月12日0:00,天猫“双11”累计总交易额达4982亿元,物流订单总量达到23.21亿单。这一切的背后都离不开实时计算技术。

Dataphin作为一款企业级智能数据构建与管理产品,具备全链路实时研发能力,从2019年开始支撑集团天猫双11的实时计算需求。就以下文介绍Dataphin实时计算的能力。

传统的数仓架构

在数仓建设过程中,一般来说都是先建设离线数仓,同时围绕着离线数据构建应用。然后随着业务的发展或者体验的优化,再建设实时计算的链路去提升数据的时效性。

在这个过程中相似的代码写两遍就难以避免,还会出现实时和离线口径不一致,分别维护成本增加等各种各样的问题。

传统的数仓架构流与批从存储计算中分离带来以下的问题:

  1. 效率问题:流批底层数据模型不一致,导致应用层做大量的拼接逻辑(同比、环比、二次加工等),搭建效率低且容易出错
  2. 质量问题:一个业务逻辑,两个引擎两套代码,SQL逻辑不能复用,数据一致性和质量问题难以保证
  3. 成本问题
  4. 流批存储系统隔离(面向不同写入场景),提供的数据服务不一,维护成本高
  5. 手工建数据同步任务,开发成本/存储成本高(两份)
  6. 批处理&流处理集群无法做到错峰,资源利用率低

Dataphin流批一体优势

为解决传统数仓架构的存储计算分离的问题,有了“流批一体”的思路:

  1. 流批存储透明化,查询逻辑完全一致,应用端接入成本大幅降低,点查/OLAP分析统一支持
  2. 服务层统一存储,无需手工同步,无重复存储
  3. 一套代码,两种计算模
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值