hive文件存储格式

本文详细介绍了Hive支持的文件存储格式,重点讨论了列式存储的Parquet和ORC格式,以及它们的压缩算法。Parquet文件包含行组、列块、页等结构,而ORC文件由stripe组成,两者在压缩比和查询速度上各有优势。Snappy是常用的压缩方式,TextFile和Gzip也在文中提及,其中Gzip不支持split,可能影响并行操作。
摘要由CSDN通过智能技术生成

文件存储格式

hive支持的文件存储格式主要textFile , sequenceFile ,orc , parquet file ,text file 和 sequencefile 都是基于行式存储的 。
orc 和 parquet file 是列式存储存储的 , 可以针对性的设计更好的压缩算法。
在这里插入图片描述

列式存储之parquet

在这里插入图片描述 一. parquet的 文件的格式和架构
parquet文件是一个二进制的文件 , 不可直接读取 , 因为其包含元数据 和 原始数据 , 所以是自解析的
1.行组( row group )
每一个行组包括一定的行数, 是一个hdfs的具体文件 , 类似是一个orc文件的stripe,存储了一定行数的一个文件
2 列块 ( column group)
每一个行组的所有信息存储在一个列块中
每一个行组的每一个列块的所有数据的类型都是相同的不同的列块可能使用不同压缩方式进行压缩。
3 页 ( page)
每一个列块可以分成多个页, 每一个页是最小的压缩和存储的单元 , 每一个页可以使用不同的压缩算法、 编码方式的 压缩

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值