MapReduce框架原理-MapTask和ReduceTask工作机制

最新推荐文章于 2023-02-13 22:39:19 发布

自信且放光芒66

最新推荐文章于 2023-02-13 22:39:19 发布

阅读量417

点赞数

文章标签： mapreduce hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zyd_994264926326/article/details/119602093

版权

本文深入探讨MapReduce框架中的MapTask和ReduceTask工作机制。MapTask包括并行度机制和详细步骤，如数据读取、映射、收集、溢写和合并。ReduceTask涵盖其工作机制，主要包括数据拷贝、合并、排序和减少阶段。同时强调了ReduceTask数量对性能的影响，并提供了设置 ReduceTask 的实验和注意事项。

摘要由CSDN通过智能技术生成

目录

一、MapTask工作机制

（一）并行度机制

（二）MapTask工作机制

二、ReduceTask工作机制

（一）ReduceTask工作机制

（二）设置ReduceTask

实验：测试reducetask多少合适。

一、MapTask工作机制

（一）并行度机制

1）问题引出

maptask的并行度决定map阶段的任务处理并发度，进而影响到整个job的处理速度。那么，mapTask并行任务是否越多越好呢？

2）MapTask并行度决定机制

一个job的map阶段MapTask并行度（个数），由客户端提交job时的切片个数决定。

切片(逻辑上的切分)大小默认等于128M，和block大小相等，原因是如果不按照block大小进行切分，可能会涉及到一些不同节点之间数据的传输。

（二）MapTask工作机制

总结

read阶段：读取数并行度决定机制据成key-value
map阶段：将读取的key-value进行处理，生成新的key-value
collect阶段：将map的数据写到环形缓冲区（分区）中
spill溢写阶段：环形缓冲区数据满80%后溢写磁盘，只不过溢写之前需要进行排序
combine阶段：合并小文件（而不是执行Combiner业务逻辑）：归并排序，将一些多次产生的小文件进行合并，形成一个大文件

【注意】MapTask的数量是由切片数决定的，虽然Maptask不能直接设置，但是我们可以通过设置切片个数去完成MapTask数量的指定

详细步骤

（1）Read阶段：Map Task通过用户编写的RecordReader，

最低0.47元/天解锁文章

自信且放光芒66

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce框架原理-MapTask和ReduceTask工作机制

一、MapTask工作机制（一）并行度机制1）问题引出maptask的并行度决定map阶段的任务处理并发度，进而影响到整个job的处理速度。那么，mapTask并行任务是否越多越好呢？2）MapTask并行度决定机制一个job的map阶段MapTask并行度（个数），由客户端提交job时的切片个数决定。切片(逻辑上的切分)大小默认等于128M，和block大小相等，原因是如果不按照block大小进行切分，可能会涉及到一些不同节点之间数据的传输。（二）MapTask...
复制链接

扫一扫

自信且放光芒66 CSDN认证博客专家 CSDN认证企业博客

码龄3年

44: 原创

10万+: 周排名

5万+: 总排名

5万+: 访问

: 等级

587: 积分

73: 粉丝

137: 获赞

6: 评论

251: 收藏

私信

关注

热门文章

分类专栏

深度学习 6篇
Linux 8篇
Hadoop 14篇
大数据 6篇
Zookeeper 6篇
算法 8篇
Java 2篇
Python 1篇

最新评论

论文阅读-《MHFormer: Multi-Hypothesis Transformer for 3D Human Pose Estimation》
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读-《PoseFormerV2: Exploring Frequency Domain for Efficient and Robust 3D Human Pose E》
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读-PoseFormer：《3D HumanPose Estimation with Spatial and Temporal Transformers》
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读-《Lite Pose: Efficient Architecture Design for 2D Human Pose Estimation》
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读-《HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation》
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。