Hadoop压缩格式

hadoop的常用压缩格式
压缩格式可分割算法扩展名Linux工具
gzipDEFLATE.gzgzip
lzo是(加索引)LZO.lzolzop
snappySnappy.snappy
Bzip2Bzip2.bz2bzip2
deflateDEFLATE.deflate
zipZIP.zipzip
各个压缩格式的优缺点
压缩格式优点缺点
gzip压缩比在四种压缩方式中较高;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linux系统都自带gzip命令,使用方便。不支持split
lzo压缩/解压速度也比较快,合理的压缩率;支持split,是hadoop中最流行的压缩格式;支持hadoop native库;需要在linux系统下自行安装lzop命令,使用方便。压缩率比gzip要低;hadoop本身不支持,需要安装;lzo虽然支持split,但需要对lzo文件建索引,否则hadoop也是会把lzo文件看成一个普通文件(为了支持split需要建索引,需要指定inputformat为lzo格式)
snappy压缩速度快;支持hadoop native库。不支持split;压缩比低;hadoop本身不支持,需要安装;linux系统下没有对应的命令d. bzip2
bzip2支持split;具有很高的压缩率,比gzip压缩率都高;hadoop本身支持,但不支持native;在linux系统下自带bzip2命令,使用方便。压缩/解压速度慢;不支持native
压缩比对比图

压缩比对比图
可见Bzip2的压缩率最高

解压缩时间对比图

解压缩时间对比图
Bzip2压缩时间最长
Snappy压缩时间最短

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值