Hadoop压缩方式介绍

Hadoop压缩方式

一、作用

通过对数据的压缩,可以减少磁盘IO,节省磁盘空间;但是压缩会增加CPU负荷开销,所以在运算密集的Job中少用压缩,在IO流频繁的操作Job中,多用压缩。

二、主要压缩方式
1)DEFLATE

hadoop自带压缩方式,压缩文件后缀名为.deflate,不支持切片;

2)Gzip

hadoop自带压缩方式,压缩文件后缀名为.gzip,不支持切片;

压缩率比较高,压缩速度一般;

3)bzip2

hadoop自带压缩方式,压缩文件后缀名为.bzip2,支持切片;

压缩率高,压缩速度慢,一般用于长时间不使用,但不能删除的数据;

4)Snappy

hadoop自带压缩方式,压缩文件后缀名为.snappy,不支持切片;

压缩率一般,压缩速度快;

5)LZO

需要安装,压缩文件后缀名为.lzo,支持切片,但支持切片需要建额外索引;

在配置压缩方式后需要修改原程序,需要建索引,指定输入格式;

压缩率一般,压缩速率比较快;

三、压缩的使用
1)Map输入前

Hadoop自动检验文件扩展名,对文件进行压缩和解压;

如果数据量比较小,则使用压缩速度比较快的LZO/Snappy;

如果数据量比较大,则考虑支持切片的bzip2/LZO;

2)Map输出数据

因为MapTask和ReduceTask之间的网络传输IO,选择压缩解压速度快的Snappy/LZO;

3)Reducer输出

如果数据永久保存,则使用压缩率较高的Bzip2和Gzip;

如果作为下一个MapReduce输入,则考虑是否支持切片;

四、总结
压缩方式压缩率压缩速度是否支持切片是否自带使用选择(例)
Gzip比较高一般reduce,一般不使用
bzip2map输入数据量大时使用
Snappy一般map输入(数据量小)、输出数据阶段
LZO一般比较快map输入(数据量小)、输出数据阶段
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值