Hive文件存储有多种格式选择,TEXT/ORC/Parquet等等,当前提到的这三种比较常用,专门测试了下性能,看看文件格式分别适用哪些场景。测试结果如下:
TEXT: | |
4.7G | 0.8min |
3.4G | 1min |
3.3G | 1.25min |
Parquet: | |
1.8G | 2.5min |
1.5G | 3min |
1.4G | 2.4min |
ORC: | |
0.93G | 4.3min |
0.66G | 4.5min |
0.85G | 5.4min |
所以咨询大佬和测试之后,本人得出的结论就是:
如果追求的大数据量下的快速写入,选择Text。
如果追求的是磁盘空间使用最少,选择ORC。
其他情况,无脑Parquet!