MapReduce并行度

最新推荐文章于 2024-04-18 13:04:17 发布

二手盐

最新推荐文章于 2024-04-18 13:04:17 发布

阅读量511

点赞数

分类专栏： Hadoop 文章标签： mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45638853/article/details/115603250

版权

并行度

一个任务同时由人执行的数量

reduce和map的并行度没有任何数量关系

reduce端的并行度

reducetask默认值是1，可以通过 job.setNumReduceTasks(n) 设置

n就是reduce的并行度，每个节点都可以执行0-n个reduceTask

注意：

reducetask=0，表示没有reduce阶段，输出文件个数和map个数一致。
reducetask默认值就是1，所以输出文件个数为一个。
如果数据分布不均匀，就有可能在reduce阶段产生数据倾斜
reducetask数量并不是任意设置，还要考虑业务逻辑需求，有些情况下，需要计算全局汇总结果，就只能有1个reducetask。
具体多少个reducetask，需要根据集群性能而定。
如果分区数不是1，但是reducetask为1，是否执行分区过程。答案是：不执行分区过程。因为在maptask的源码中，执行分区的前提是先判断reduceNum个数是否大于1。不大于1肯定不执行。

根据实验数据得出结论

reduceTask的数量与DataNode的数量保持一致的时候，可以达到最快的计算速度。前提条件以逻辑需求为主。

map端的并行度

看原数据可以分为多少个切片(InputSplit)。

一个job的map阶段并行度由客户端在提交job时决定。
而客户端对map阶段并行度

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce并行度

并行度一个任务同时由人执行的数量reduce和map的并行度没有任何数量关系reduce端的并行度reducetask默认值是1，可以通过 job.setNumReduceTasks(n) 设置n就是reduce的并行度，每个节点都可以执行0-n个reduceTask注意：reducetask=0，表示没有reduce阶段，输出文件个数和map个数一致。reducetask默认值就是1，所以输出文件个数为一个。如果数据分布不均匀，就有可能在reduce阶段产生数据倾斜re
复制链接

扫一扫

专栏目录

博客等级

码龄5年

27
原创

3
点赞

15
收藏

4
粉丝

关注

私信

热门文章

分类专栏

错题知识点 2篇
Hadoop 18篇
Linux 7篇

最新评论

Linux用户与用户组
不吃西红柿丶: 非常有用，感谢大佬的整理，期待后续大作
Linux基本指令与操作(2)
不吃西红柿丶: 很不错分享～进步的路上一起努力！期待您的关注哈。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。