【数据湖Hudi的概念】Table Types、Indexing和Metadata Table

本文详细介绍了Hudi数据库中两种主要表类型——Copy-On-Write和Merge-On-Read的工作原理及区别,包括它们的写入和查询延迟特性、更新成本等,并探讨了索引机制及其对性能的影响,最后讲解了元数据表如何提高读写效率。

1. Table Types

1.1 Copy On Write

Copy-On-Write表的file slice只有一个base file,每一次action都会进行compaction,产生新version的file slice

Copy On Write说明:

  • field1、field2、field3在10:05的数据全部在base file中
  • 此时query能查询到version 10:05的数据
  • 10:10的upsert操作被compaction到field1、field2、field5,产生新version的base file
  • 此时query能查询到version 10:05和10:10的数据

1.2 Merge On Read

Merge on read表是copy on write表的超集。commit的数据首先被储存在log files中,然后会进行后台的compaction,将base file + log files合并,生成一个新version的base file。读取能达到近实时,可能有几分钟的延迟,有3种数据读取方式:

  1. Snapshot Queries:读取某个instant time的Snapshot,包含base file + log files。读取的数据延时低,查询性能低
  2. Incremental Queries:读取某个instant time后的增量数据,包含base file + log files
  3. Read Optimized Queries:读取某个i
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值