MapReduce的数据压缩

最新推荐文章于 2022-05-28 16:06:19 发布

牧码文

最新推荐文章于 2022-05-28 16:06:19 发布

阅读量744

点赞数 1

分类专栏： hadoop 文章标签： mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46429290/article/details/121429818

版权

hadoop 专栏收录该内容

46 篇文章 2 订阅

订阅专栏

MapReduce进行数据压缩

压缩方式有snappy、lzo、bzip2等

为了支持多种压缩/解压缩算法，Hadoop引入了编码/解码器

压缩格式	对应的编码/解码器
DEFLATE	org.apache.hadoop.io.compress.DefaultCodec
gzip	org.apache.hadoop.io.compress.GzipCodec
bzip2	org.apache.hadoop.io.compress.BZip2Codec
LZO	com.hadoop.compression.lzo.LzopCodec
Snappy	org.apache.hadoop.io.compress.SnappyCodec

压缩性能的比较：

压缩算法	原始文件大小	压缩文件大小	压缩速度	解压速度
gzip	8.3GB	1.8GB	17.5MB/s	58MB/s
bzip2	8.3GB	1.1GB	2.4MB/s	9.5MB/s
LZO	8.3GB	2.9GB	49.3MB/s	74.6MB/s

MapReduce的主要压缩过程主要有三个阶段

map之前：要考虑数据量的大小，数据量小的，就不需要考虑过多的切片，主要追求的是快速，可以选择压缩方式snappy或者lzo。数据量大的话，考虑到切片，可以选择lzo或者bzip2

map之后：map之后的数据要经历reduce聚合，主要考虑速度，所以选择snappy或者lzo

reduce之后：需要看具体的需求，类似于持久保存，那就需要看数据量的大小，数据量小的，就不需要考虑过多的切片，主要追求的是快速，可以选择压缩方式snappy或者lzo。数据量大的话，考虑到切片，可以选择lzo或者bzip2
在这里插入图片描述

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
MapReduce的数据压缩

MapReduce进行数据压缩压缩方式有snappy、lzo、bzip2等为了支持多种压缩/解压缩算法，Hadoop引入了编码/解码器压缩格式对应的编码/解码器DEFLATEorg.apache.hadoop.io.compress.DefaultCodecgziporg.apache.hadoop.io.compress.GzipCodecbzip2org.apache.hadoop.io.compress.BZip2CodecLZOcom.hadoop
复制链接

扫一扫

专栏目录

牧码文 CSDN认证博客专家 CSDN认证企业博客

码龄4年

392: 原创

13万+: 周排名

8155: 总排名

48万+: 访问

: 等级

5045: 积分

712: 粉丝

587: 获赞

166: 评论

1794: 收藏

私信

关注

热门文章

分类专栏

docker 6篇
kafka 3篇
数据存储 55篇
Spark 18篇
数据仓库 56篇
数据结构 38篇
springboot 9篇
MySql 29篇
java 39篇
hive 61篇
hadoop 46篇
计算机网络 1篇
python 33篇
Azkaban 2篇
zookeeper 4篇
linux 15篇
MapReduce 7篇
Flink 3篇
k8s 4篇
Git 7篇
Flume 3篇
Scala 23篇
前端 2篇
Hbase 3篇
JDBC 9篇
maven 1篇
javaweb 4篇
nginx 2篇
RS 1篇
Redis 1篇

最新评论

SQL解决最多同时在线人数问题(同时视频观看人数，同时浏览人数，同时等车人数)
yahuoo_: 但是date(check_time) check_time之后就只剩下年月日了，如果一个用户一天内有多次在线时间，就会出现很多个相同的check_time，在表格上无法分辨。而且这个方法好像算不出某个时间段的同时在线人数，会显示用户开始时间有几个人，结束时间有几个人，但是过程时间的在线人数无法计算，我带入了数据进行计算，结果也不对
SQL解决最多同时在线人数问题(同时视频观看人数，同时浏览人数，同时等车人数)
Wang Mr.: select video_id ,check_time ,max(online_cnt) from ( select video_id ,date(check_time) check_time ,sum(cnt) over(partition by video_id, date(check_time) order by check_time) online_cnt from t1 ) t2 group by city, check_time 老兄，这个sql我最后有一点点疑问，为啥是group by city了？不应该是video_id吗？
python的网页解析库-bs4(BeautifulSoup)
普通网友: 写的真好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
python图像识别库-pytesseract
Java新时代程序员: 感谢大佬分享好文，学到了不少新知识，支持大佬，期待大佬持续输出优质文章！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Python文本分词工具库-jieba
普通网友: 写的很详细，感谢博主的分享。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

牧码文 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。