数据湖
文章平均质量分 94
数据湖 hudi、idcberg、delta
宝哥大数据
大数据、机器学习、深度学习
展开
-
hudi概念与设计介绍
文章目录一、应用场景二、概念/术语2.1、Timeline2.2、Time2.3、文件管理2.4、文件版本2.5、文件格式2.6、Index2.6.1、Index 的创建过程2.7、Table 类型2.7.1、Copy On Write2.7.2、Merge On Read三、数据写3.1、写操作3.2、写流程(UPSERT)3.3、写流程(INSERT)3.4、工具3.5、Key 生成策略3.6、删除策略四、数据读4.1、Snapshot 读4.2、Incremantal 读4.3、Streaming 读原创 2021-09-18 09:03:21 · 1213 阅读 · 0 评论 -
数据湖三剑客 Hudi、Delta、Iceberg 对比
一、介绍在构建数据湖时,也许没有比数据格式存储更具有意义的决定。其结果将对其性能、可用性和兼容性产生直接影响。通过简单地改变数据的存储格式,我们就可以解锁新的功能,提高整个系统的性能,这很有启发意义。Apache Hudi、Apache Iceberg 和 Delta Lake是目前为数据湖设计的最佳格式。这三种格式都解决了数据湖最迫切的一些问题。原子事务–保证对数据湖的更新或追加操作不会中途失败,产生脏数据。一致的更新–防止在写入过程中读取失败或返回不完整的结果。同时处理潜在的并发写入冲原创 2021-09-09 23:10:23 · 7741 阅读 · 2 评论 -
开源数据湖方案选型:Hudi、Delta、Iceberg深度对比
文章目录前言: 共同点一、Databricks 和 Delta1.1、**存在问题 :**二、**Uber和Apache Hudi**这篇文章主要向大家介绍开源数据湖方案选型:Hudi、Delta、Iceberg深度对比,主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。目前市面上流行的三大开源数据湖方案分别为: delta、Apache Iceberg和Apache Hudi。其中,因为 Apache Spark 在商业化上取得巨大成功,因此由其背后商业公司 Databricks原创 2021-09-09 15:24:37 · 5859 阅读 · 1 评论