基于 Delta lake、Hudi 格式的湖仓一体方案

本文介绍了基于MaxCompute的湖仓一体架构,利用Delta Lake和Hudi进行数据湖存储和管理。通过数据湖构建DataLakeFormation(DLF)实现与OSS、EMR等的打通,提供元数据管理和权限控制。通过DLF将RDS数据实时入湖至Delta Lake或Hudi格式,并在MaxCompute中进行查询,实现了异构数据平台的融合和业务洞察的提升。
摘要由CSDN通过智能技术生成

一、最佳实践背景

整个最佳实践是基于MaxCompute的湖仓一体架构,模拟公司使用场景。比如公司 A 使用云上关系型数据库 RDS 作为自己的业务库,同时使用阿里云 EMR 系统做日志数据采集。将数据汇集到云上对象存储 OSS 上,引入了数据湖常会用的存储机制 Delta Lake 和 Hudi 为数据湖提供流处理、批处理能力。通过 MaxCompute 查询到实时数据,即时洞察业务数据变化。 整个场景demo的架构是,云上EMR产生的实时变化的数据,包括在线数据库RDS,通过数据入湖,然后实时的把数据变化体现在归档的OSS 上。同时MaxCompute跟其他引擎一起分析OSS上的数据。

湖仓一体架构:异构数据平台融合

因为企业内部会有很多业务线,不同的部门,因为本身业务的需求及员工的技术栈几个方面的原因,导致采用的数据架构不一样,数据平台也不一样。技术架构有Hadoop技术体系,也有云上全托管架构,所以造成不同的部门对技术架构,使用的技术平台不一样,也造成了数据割裂的情况。湖仓一体就是帮助企业把异构数据平台做一个打通,底层数据可以相互访问,中间元数据层也可以做到互相透视,数据可以做到自由流动。数据湖部分不只是支持EMR,也支持ESC Hadoop和云下IDC Hadoop。其中MaxCompute数据仓库也可以和数据湖EMR做一个数据打通,在用MaxCompute跟联播数据源做一个联播查询,这样可以把所有的数据在MaxCompute中做一个汇总。比如有三张表,在RDS和Hive中,同事MaxCompute里有大量事实表,如果需求是对这个三个表做一个联合查询,通过这个架构,可以很方便的做到这一点。

更快的业务洞察

  • DataWorks 自助开通湖仓一体:5分钟打通异构数据平台(Hadoop/ DLF+OSS )

更广泛的生态对接

  • 支持对接阿里云云原生数据湖构建(DLF)
  • 支持查询 DeltaLake、Hudi 格式
  • 支持对接更多外部联邦数据源 Hologres (RDS、HBaseUpcoming! )

更高的性能

  • 智能 Cache 实现 OSS/ HDFS 数据访问加速
  • 湖数据查询加速

更好的综合数据开发与治理

  • 跨引擎开发和调度
  • 统一湖/仓数据开发体验
  • 统一湖/仓全局资产管理

湖仓一体的架构

首先看右侧部分,是跟OSS和DLF侧的打通,因为在OSS 上我们归档大量的半结构化和结构化的数据。有关系型数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值