2.47G大小结构化文件2642845690
分别在hive
上建表 (默认压缩算法)
在HDFS上对应目录如下图:
将这个文件load进stored as textfile 的表里
stored as textfile 在HDFS上占空间和linux上一样2642845690 约2.47G
stored as orc 从textfile表插入数据花费Time taken: 72.333 seconds
在HDFS上占空间585377591约0.55G
stored as sequencefile 从textfile表插入数据花费Time taken: 58.538 seconds
在HDFS上占空间2823942397约2.63G
stored as parquet 从textfile表插入数据花费Time taken: 89.844 seconds
在HDFS上占空间625366787约0.582G
stored as rcfile 从textfile表插入数据花费Time taken: 55.115 seconds
在HDFS上占空间2513468031约2.34G
结论 占用空间排序sequencefile 〉textfile〉rcfile 〉parquet〉orc