大数据之Hadoop(hdfs)：Hadoop文件压缩

最新推荐文章于 2022-10-16 22:27:43 发布

浊酒南街

最新推荐文章于 2022-10-16 22:27:43 发布

阅读量547

点赞数 1

分类专栏： # 大数据系列一

本文链接：https://blog.csdn.net/weixin_43597208/article/details/117033063

版权

大数据系列一专栏收录该内容

126 篇文章 0 订阅

订阅专栏

1. Hadoop的文件压缩需求

文件压缩对于大容量的分布式存储系统而言是必须的，它能带来两个好处：
　　1）减少了文件所需的存储空间；
　　2）加快了文件在网络上或磁盘间的传输速度。

2. Hadoop支持的压缩格式

压缩格式	工具	算法	文件拓展名	是否可切分
Gzip	gzip	DEFAULT	gz	否
bzip2	bzip2	bzip2	bz2	是
LZO	lzop	LZO	lzo	否
LZ4	无	LZ4	lz4	否
Snappy	无	Snappy	snappy	否

3.优缺点

压缩格式	优点	缺点	使用场景
gzip压缩	压缩率比较高，压缩/解压速度比较快；hadoop本身支持；有hadoop native库；大部分linux系统都自带gzip命令，使用方便	不支持split	当每个文件压缩之后在130M以内的（1个块大小内），都可以考虑用gzip压缩格式
lzo压缩	压缩/解压速度比较快，合理的压缩率；支持split，是hadoop中最流行的压缩格式；支持hadoop native库；可以在linux系统下安装lzop命令，使用方便	压缩率比gzip要低；hadoop本身不支持，需要安装；在应用中对lzo格式的文件需要做一些特殊处理	一个很大的文本文件，压缩之后还大于200M以上的可以考虑，而且单个文件越大，lzo优点越越明显
snappy压缩	高速压缩速度和合理的压缩率；支持hadoop native库	不支持split；压缩率比gzip要低；hadoop本身不支持，需要安装；linux系统下没有对应的命令	当mapreduce作业的map输出的数据比较大的时候，作为map到reduce的中间数据的压缩格式；或者作为一个mapreduce作业的输出和另外一个mapreduce作业的输入
bzip2压缩	支持split；具有很高的压缩率，比gzip压缩率都高；hadoop本身支持，但不支持native；在linux系统下自带bzip2命令，使用方便	压缩/解压速度慢；不支持native	适合对速度要求不高，但需要较高的压缩率的时候，可以作为mapreduce作业的输出格式；或者输出之后的数据比较大，处理之后的数据需要压缩存档减少磁盘空间并且以后数据用得比较少的情况；或者对单个很大的文本文件想压缩减少存储空间，同时又需要支持split，而且兼容之前的应用程序（即应用程序不需要修改）的情况

4.如何在MapReduce中使用压缩

map作业输出结果的压缩

即使MapReduce应用使用非压缩的数据来读取和写入，我们也可以受益于压缩map阶段的中间输出。因为map作业的输出会被写入磁盘并通过网络传输到reducer节点，所以如果使用 LZO、LZ4或者Snappy之类的快速压缩方式，能得到更好的性能，因为传输的数据量大大减少了。启用 map 任务输出压缩和设置压缩格式的配置属性，如下表所示。

下面是在作业中启用 map 任务输出 gzip 压缩格式的代码（使用新 API）。

属性名称	类型	默认值	描述
mapred.compress.map.output	bollean	false	对map任务输出进行压缩
mapred.map.output.compression.codec	Class	org.apache.hadoop.io.compress.DefaultCodec	map输出所用的压缩codec

浊酒南街

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据之Hadoop(hdfs)：Hadoop文件压缩

目录1. Hadoop的文件压缩需求2. Hadoop支持的压缩格式3.优缺点4.如何在MapReduce中使用压缩map作业输出结果的压缩1. Hadoop的文件压缩需求文件压缩对于大容量的分布式存储系统而言是必须的，它能带来两个好处：　　1）减少了文件所需的存储空间；　　2）加快了文件在网络上或磁盘间的传输速度。2. Hadoop支持的压缩格式压缩格式工具算法文件拓展名是否可切分DEFAULT无DEFAULTDEFAULT否GzipgzipDEFA
复制链接

扫一扫