比对三种主流的文件存储格式TEXTFILE 、ORC、PARQUET
压缩比:ORC > Parquet > textFile(textfile没有进行压缩)
查询速度:三者几乎一致
hadoop fs -du -s -h hdfs://com1-hdfs/warehouse/TABLE_A/dayno=20230326
11.4 G 34.2 G hdfs://com1-hdfs/warehouse/TABLE_A/dayno=20230326
11.4 G 单个拷贝大小
34.2 G 三个副本总大小
因为orcfile的压缩快,储存快,所以我们一般会使用orcfile储存格式,压缩算法支持采用orc支持的zlib格式和snappy格式,orc默认采用的是ZLIB压缩。
对于ods层的数据,一般采用orcfile+zlib格式,来节省磁盘的空间
对于DWD/DWM/DWS/APP层,为了执行的效率,可以使用比较土豪的方式:orcfile+snappy

ORC文件格式在数据存储中的优势与应用
文章对比了TEXTFILE、ORC和PARQUET三种文件存储格式,指出ORC在压缩比上优于PARQUET和TEXTFILE(后者未压缩),且查询速度三者相当。ORC常用于节省存储空间,如ODS层数据通常用ORC+ZLIB,而DWD/DWM/DWS/APP层可能选择ORC+Snappy以平衡压缩和查询效率。
412

被折叠的 条评论
为什么被折叠?



