Hive文件存储格式选择

本文通过测试展示了Hive中Text、ORC和Parquet三种文件格式在大数据处理中的性能差异。测试结果显示,Text格式在大数据量写入时速度最快,ORC在磁盘空间使用上最节省,而Parquet则在多数场景下提供良好的平衡。因此,如果追求写入速度,可以选择Text;在意存储效率,推荐ORC;对于一般场景,Parquet是理想选择。
摘要由CSDN通过智能技术生成

    Hive文件存储有多种格式选择,TEXT/ORC/Parquet等等,当前提到的这三种比较常用,专门测试了下性能,看看文件格式分别适用哪些场景。测试结果如下:

TEXT:
4.7G0.8min
3.4G1min
3.3G1.25min
Parquet:
1.8G2.5min
1.5G3min
1.4G2.4min
ORC:
0.93G4.3min
0.66G4.5min
0.85G5.4min

所以咨询大佬和测试之后,本人得出的结论就是:

    如果追求的大数据量下的快速写入,选择Text。

    如果追求的是磁盘空间使用最少,选择ORC。

    其他情况,无脑Parquet!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值