压缩
为什么要压缩?
1)减少磁盘的存储空间
2)减少网络和磁盘的IO
3) 加快数据在磁盘和网络中的传输速度,从而提高系统的处理速度
压缩的局限性
每次使用数据时需要先将数据解压,加重CPU负荷。
压缩格式
压缩格式 |
工具 |
算法 |
文件扩展名 |
是否可切分 |
DEFAULT |
无 |
DEFAULT |
.deflate |
否 |
Gzip |
gzip |
DEFAULT |
.gz |
否 |
bzip2 |
bzip2 |
bzip2 |
.bz2 |
是 |
LZO |
lzop |
LZO |
.lzo |
设置索引后可切分 |
LZ4 |
无 |
LZ4 |
.lz4 |
否 |
Snappy |
无 |
Snappy |
.snappy |
否 |
为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器,如下表所示
压缩格式 |
对应的 |