数据湖简介

最新推荐文章于 2023-04-24 23:30:00 发布

王义凯_Rick

最新推荐文章于 2023-04-24 23:30:00 发布

阅读量989

点赞数 1

分类专栏： # 其他文章标签：数据湖大数据数据仓库数据治理

本文为博主原创文章，转载请注明出处http://blog.csdn.net/wsdc0521

本文链接：https://blog.csdn.net/wsdc0521/article/details/114808036

版权

其他专栏收录该内容

6 篇文章 0 订阅

订阅专栏

数据湖是将公司所有数据，外部数据，不知道要不要用的数据放在一起，通过一定的数据治理，让数据可以被发现，被理解，以用于交叉查询或机器学习的研究。

数据湖不麻烦，管理数据湖中的数据最麻烦，一不小心就会变成数据沼泽。没人知道里面有什么数据，从哪来的，是干嘛的。

目前市面上流行的三大开源数据湖方案分别为：DeltaLake, Hudi, Iceberg 。

1. 对比数仓

数据湖支持非结构化，半结构化数据

数据湖的数据多为原始数据

数据湖是read-on-schema

2.特点

支持ACID

支持修改和删除，增量更新

历史回溯

支持多种底层存储

元数据可扩展

3.iceberg支持的存储格式：parquet,orc,avro

支持使用spark,flink,presto,hive 引擎查询

4. iceberg核心思想

快照snapshot，在时间轴上线性的记录表的所有变化

每次更新会生产一个快照，原子性commit

原子性，读写分离，时间旅行和版本回溯，增量消费

5. 提供ACID事务能力。提供upsert以及merge into功能。

灵活的存储：parquet,orc,avro

支持多种分析引擎：spark,flink,presto,hive

提供基于流式的增量计算模型和基于批式的全量计算模型

增量适配：spark streaming, flink sink/source 适配

6. GDPR出台后，要求能够删除用户的数据。支持delete 很重要。

7. upsert基本原理

copy on write：将目标数据读到内存，完成更新后替换掉目标文件。后续读取快且不产生小文件，但将数据读到内存里消耗资源。

merge on read：直接更新到目标端，会产生delta文件，在读时合并，写速度快，但会产生小文件。

8 delta lake的upsert就是实现了copy on wirte模式。

hudi抽象了merge on read和copy on write，用户可以根据读写延迟需求选择任意一种表进行upsert。

9. iceberg提供了一套基于data file的事务操作接口，方便进行包装实现copy on write。有两种操作：

9.1：将upsert拆成delete, update, insert合并成一个事务提交

9.2：将目标表和源表进行join，然后在内存根据match条件进行操作并生成文件，再通过事务提交delete和insert操作。

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
5
评论
数据湖简介

数据湖是将公司所有数据，外部数据，不知道要不要用的数据放在一起，通过一定的数据治理，让数据可以被发现，被理解，以用于交叉查询或机器学习的研究。数据湖不麻烦，管理数据湖中的数据最麻烦，一不小心就会变成数据沼泽。没人知道里面有什么数据，从哪来的，是干嘛的。目前市面上流行的三大开源数据湖方案分别为：DeltaLake, Hudi, Iceberg 。
复制链接

扫一扫

专栏目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

王义凯_Rick 遇见即是缘，路过就给个评论吧~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。