Hudi的核心概念 —— 文件布局（File Layout）

最新推荐文章于 2024-06-19 11:20:23 发布

Alienware^

最新推荐文章于 2024-06-19 11:20:23 发布

阅读量1.3k

点赞数 1

分类专栏： Hudi 文章标签：大数据 Hudi

本文链接：https://blog.csdn.net/weixin_45417821/article/details/128611557

版权

Hudi 专栏收录该内容

10 篇文章 2 订阅

订阅专栏

文章目录

文件布局（File Layout）
- Hudi 存储分为两个部分

文件布局（File Layout）

Hudi 将一个表映射为如下文件结构

在这里插入图片描述

Hudi 存储分为两个部分

（1）元数据：.hoodie 目录对应着表的元数据信息，包括表的版本管理（Timeline）、归档目录（存放过时的 instant 也就是版本），一个 instant 记录了一次提交（commit）的行为、时间戳和状态，Hudi 以时间轴的形式维护了在数据集上执行的所有操作的元数据；
（2）数据：和 hive 一样，以分区方式存放数据；分区里面存放着 Base File（.parquet）和 Log File（.log.*）；

在这里插入图片描述

一个partition_1也是一个ID

1）Hudi 将数据表组织成分布式文件系统基本路径（basepath）下的目录结构
2）表被划分为多个分区，这些分区是包含该分区的数据文件的文件夹，非常类似于Hive 表
3）在每个分区中，文件被组织成文件组，由文件 ID 唯一标识
4）每个文件组包含几个文件片（FileSlice）
5）每个文件片包含：
（1）一个基本文件(.parquet)：在某个 commit/compaction 即时时间（instant time）生成的（MOR 可能没有）
（2）多个日志文件(.log.*)，这些日志文件包含自生成基本文件以来对基本文件的插入/更新（COW 没有）
6）Hudi 采用了多版本并发控制(Multiversion Concurrency Control, MVCC)
（1）compaction 操作：合并日志和基本文件以产生新的文件片
（2）clean 操作：清除不使用的/旧的文件片以回收文件系统上的空间

在这里插入图片描述

7）Hudi 的 base file（parquet 文件）在 footer 的 meta 去记录了 record key 组成的BloomFilter，用于在 file based index 的实现中实现高效率的 key contains 检测。只有不在BloomFilter 的 key 才需要扫描整个文件消灭假阳。
8）Hudi 的 log （avro 文件）是自己编码的，通过积攒数据 buffer 以 LogBlock 为单位写出，每个 LogBlock 包含 magic number、size、content、footer 等信息，用于数据读、校验和过滤。

在这里插入图片描述

Alienware^

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Hudi的核心概念 —— 文件布局（File Layout）

（1）元数据：.hoodie 目录对应着表的元数据信息，包括表的版本管理（Timeline）、归档目录（存放过时的 instant 也就是版本），一个 instant 记录了一次提交（commit）的行为、时间戳和状态，Hudi 以时间轴的形式维护了在数据集上执行的所有操作的元数据；（2）多个日志文件(.log.*)，这些日志文件包含自生成基本文件以来对基本文件的插入/更新（COW 没有）（2）clean 操作：清除不使用的/旧的文件片以回收文件系统上的空间。Hudi 将一个表映射为如下文件结构。
复制链接

扫一扫

专栏目录