压缩
为什么要压缩?
1)减少磁盘的存储空间
2)减少网络和磁盘的IO
3) 加快数据在磁盘和网络中的传输速度,从而提高系统的处理速度
压缩的局限性
每次使用数据时需要先将数据解压,加重CPU负荷。
压缩格式
| 压缩格式 |
工具 |
算法 |
文件扩展名 |
是否可切分 |
| DEFAULT |
无 |
DEFAULT |
.deflate |
否 |
| Gzip |
gzip |
DEFAULT |
.gz |
否 |
| bzip2 |
bzip2 |
bzip2 |
.bz2 |
是 |
| LZO |
lzop |
LZO |
.lzo |
设置索引后可切分 |
| LZ4 |
无 |
LZ4 |
.lz4 |
否 |
| Snappy |
无 |
Snappy |
.snappy |
否 |
为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器,如下表所示
| 压缩格式 |
对应的 |

本文探讨大数据压缩的必要性、局限性及各种压缩格式的优缺点,包括BZIP2、GZIP、LZ4和SNAPPY。在Hadoop中,压缩应用于减少存储空间、提升IO速度,但解压会增加CPU负荷。同时,对比了列式存储与行式存储的特性,如TEXTFILE、ORC和PARQUET格式,强调不同场景下选择适合的存储方式至关重要。
最低0.47元/天 解锁文章
1236

被折叠的 条评论
为什么被折叠?



