Hive中ORC文件压缩及执行效率比较

ORC文件格式在数据存储中的优势与应用
文章对比了TEXTFILE、ORC和PARQUET三种文件存储格式,指出ORC在压缩比上优于PARQUET和TEXTFILE(后者未压缩),且查询速度三者相当。ORC常用于节省存储空间,如ODS层数据通常用ORC+ZLIB,而DWD/DWM/DWS/APP层可能选择ORC+Snappy以平衡压缩和查询效率。

比对三种主流的文件存储格式TEXTFILE 、ORC、PARQUET

压缩比:ORC > Parquet > textFile(textfile没有进行压缩)

查询速度:三者几乎一致

hadoop fs -du -s -h hdfs://com1-hdfs/warehouse/TABLE_A/dayno=20230326

11.4 G  34.2 G      hdfs://com1-hdfs/warehouse/TABLE_A/dayno=20230326

11.4 G 单个拷贝大小

34.2 G 三个副本总大小

​ 因为orcfile的压缩快,储存快,所以我们一般会使用orcfile储存格式,压缩算法支持采用orc支持的zlib格式和snappy格式,orc默认采用的是ZLIB压缩。 ​

对于ods层的数据,一般采用orcfile+zlib格式,来节省磁盘的空间 ​

对于DWD/DWM/DWS/APP层,为了执行的效率,可以使用比较土豪的方式:orcfile+snappy

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值