大数据hudi之基本概念：文件布局

本文链接：https://blog.csdn.net/weixin_43597208/article/details/132272124

文件布局（File Layout）

Hudi将一个表映射为如下文件布局：
在这里插入图片描述
Hudi存储分为两部分：
(1)元数据：.hoodie目录对应着表的元数据信息，包括表的版本管理（TimeLine）,归档目录（存放过时的instant也就是版本），一个instant记录了一次提交（commit）的行为、
时间戳和状态，Hudi以时间轴的形式维护了在数据集上执行的所有操作的元数据；
(2)数据：和hive一样，以分区方式存放数据，分区里面放着Base File(.parquet)和LogFile(.log.*);
在这里插入图片描述
1.Hudi将数据表组织成分布式文件系统基本路径（basepath）下的目录结构
2.表划分为多个分区，这些分区是包含该分区数据的文件夹，非常类似于hive表；
3.在每个分区中，文件被组织成文件组，由文件ID唯一标识；
4.每个文件组包含几个文件片（FileSlice）
5.每个文件包含：
一个基本文件（.parquet）:在某个commit/compaction即时时间（instant time）生成的（mor可能没有）
多个日志文件（.log）,这些日志文件包含自生成基本文件以来对基本文件的插入/更新（cow没有）
6.Hudi采用了多版本并发控制（Multiversion Concurrency Control ，MVCC）
compaction 操作：合并日志和基本文件以产生新的文件片
clean操作：清除不使用的/旧的文件片以回收文件系统上的空间；
在这里插入图片描述
7.Hudi的base file()在footer 的meta 去记录了record key组成的BloomFilter,用于在 file based index 的实现中实现高效率的key contains检测。只有不在BloomFilter的key才需要
扫描整个文件消灭假阳；
8.Hudi的log(avro文件)是自己编码的，通过积攒数据buffer以logBlock为单位写出，每个LogBlock包含magic number、size、content、footer等信息，用于数据读、校验和过滤；

在这里插入图片描述