数据湖简介

数据湖是将公司所有数据,外部数据,不知道要不要用的数据放在一起,通过一定的数据治理,让数据可以被发现,被理解,以用于交叉查询或机器学习的研究。

数据湖不麻烦,管理数据湖中的数据最麻烦,一不小心就会变成数据沼泽。没人知道里面有什么数据,从哪来的,是干嘛的。

目前市面上流行的三大开源数据湖方案分别为:DeltaLake, Hudi, Iceberg 。

1. 对比数仓

数据湖支持非结构化,半结构化数据

数据湖的数据多为原始数据

数据湖是read-on-schema

 

2.特点

支持ACID

支持修改和删除,增量更新

历史回溯

支持多种底层存储

元数据可扩展

 

3.iceberg支持的存储格式:parquet,orc,avro

支持使用spark,flink,presto,hive 引擎查询

 

4. iceberg核心思想

快照snapshot,在时间轴上线性的记录表的所有变化

每次更新会生产一个快照,原子性commit

原子性,读写分离,时间旅行和版本回溯,增量消费

 

5. 提供ACID事务能力。提供upsert以及merge into功能。

灵活的存储:parquet,orc,avro

支持多种分析引擎:spark,flink,presto,hive

提供基于流式的增量计算模型和基于批式的全量计算模型

增量适配:spark streaming, flink sink/source 适配

 

6. GDPR出台后,要求能够删除用户的数据。支持delete 很重要。

 

7. upsert基本原理

copy on write:将目标数据读到内存,完成更新后替换掉目标文件。后续读取快且不产生小文件,但将数据读到内存里消耗资源。

merge on read:直接更新到目标端,会产生delta文件,在读时合并,写速度快,但会产生小文件。

 

8 delta lake的upsert就是实现了copy on wirte模式。

hudi抽象了merge on read和copy on write,用户可以根据读写延迟需求选择任意一种表进行upsert。

 

9. iceberg提供了一套基于data file的事务操作接口,方便进行包装实现copy on write。有两种操作:

9.1:将upsert拆成delete, update, insert合并成一个事务提交

9.2:将目标表和源表进行join,然后在内存根据match条件进行操作并生成文件,再通过事务提交delete和insert操作。

 

 

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

王义凯_Rick

遇见即是缘,路过就给个评论吧~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值