hive文件存储格式
文件存储格式
hive支持的文件存储格式主要textFile , sequenceFile ,orc , parquet file ,text file 和 sequencefile 都是基于行式存储的 。
orc 和 parquet file 是列式存储存储的 , 可以针对性的设计更好的压缩算法。
列式存储之parquet
一. parquet的 文件的格式和架构
parquet文件是一个二进制的文件 , 不可直接读取 , 因为其包含元数据 和 原始数据 , 所以是自解析的
1.行组( row group )
每一个行组包括一定的行数, 是一个hdfs的具体文件 , 类似是一个orc文件的stripe,存储了一定行数的一个文件
2 列块 ( column group)
每一个行组的所有信息存储在一个列块中
每一个行组的每一个列块的所有数据的类型都是相同的不同的列块可能使用不同压缩方式进行压缩。
3 页 ( page)
每一个列块可以分成多个页, 每一个页是最小的压缩和存储的单元 , 每一个页可以使用不同的压缩算法、 编码方式的 压缩