shuffle简介

最新推荐文章于 2022-11-28 11:03:58 发布

小白熊wzb

最新推荐文章于 2022-11-28 11:03:58 发布

阅读量3.9k

点赞数 1

文章标签：数据结构

原文链接：https://blog.csdn.net/Jie_luang/article/details/107637561

版权

一、shuffle概述。
hadoop中mapper之后，reducer之前的阶段称之为shuffle，是mapreduce的核心。我们不用知道它的定义，只需要知道它的功能，以及它的优化。
为什么会有shuffle？

hadoop中，map负责数据的初级拆分获取解析，reduce负责最终数据的集总，除了业务逻辑的功能外，其他的核心数据处理都是由shuffle来支持。

shuffle中有什么

简单来说，shuffle中有三次的数据排序

第一次是快速排序，这是因为第一次的数据全部在内存中开辟了一个缓冲区，数据从map出来后，分批进入缓冲区，对它们的索引进行排序，并且按照map的逻辑进行分区，在出缓冲区落盘的时候，完成排序。
第二次是归并排序，将第一次分批出来的文件进行区内归并排序。
第三次也是归并排序，将所有的map Task第二次产生的文件进行区内归并排序
这三次可以看做是一个整体的过程，从这里应该可以看出，shuffle是一个比较耗费资源并且时间开销比较大的环节。在这里，引出下面的话题---------调优。

有那些地方可以优化

shuffle的数据来源于map，所以可以对map端出来的数据进行处理，在这里，我们可以采用压缩的方式尽量减少数据的规模。

第二个是在第一次排序之后，此时由于原数据中各个字段可能会有数据分布不均，这样会导致reduce端处理数据时的数据倾斜——各个Task的处理量相差悬殊，可以在此处进行初步的数据合并处理。

设置环形缓冲区的大小，溢写到磁盘的阈值

设置第一次归并时的规模，默认10个文件合并一次

map和reduce共存

设置reduce从map中读数据时，map存在内存中的size，剩下的存在磁盘里

uber模式，小文件申请资源的时间大于运行任务的时间，就可以将container重用jvm重用，将这些小文件串行运行，一个container最大允许9个task
————————————————
版权声明：本文为CSDN博主「数妖」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/Jie_luang/article/details/107637561

关注

1
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
shuffle简介

一、shuffle概述。 hadoop中mapper之后，reducer之前的阶段称之为shuffle，是mapreduce的核心。我们不用知道它的定义，只需要知道它的功能，以及它的优化。为什么会有shuffle？ hadoop中，map负责数据的初级拆分获取解析，reduce负责最终数据的集总，除了业务逻辑的功能外，其他的核心数据处理都是由shuffle来支持。 shuffle中有什么简单来说，shuffle中有三次的数据排序第一次是快速排序，这是因为第一...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。