Hadoop进阶之MR中MapTask并行度决定机制及切片机制

最新推荐文章于 2023-08-18 10:48:52 发布

置顶

左VJ

最新推荐文章于 2023-08-18 10:48:52 发布

阅读量3k

点赞数

分类专栏： hadoop 文章标签： hadoop MapReduce MR 进阶切片

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zuolovefu/article/details/79066896

版权

本文深入探讨Hadoop MapReduce中MapTask的并行度决定机制，分析FileInputFormat的切片机制，包括切片定义、默认切片逻辑和参数配置。同时，分享了map并行度的经验建议，强调了合理设置mapTask和reduceTask并行度对作业性能的影响，并指出数据倾斜问题和业务逻辑需求在设置reduceTask数量时的重要性。

摘要由CSDN通过智能技术生成

前言
mapTask并行度的决定机制
FileInputFormat切片机制
map并行度的经验之谈
ReduceTask并行度的决定

前言

maptask的并行度决定map阶段的任务处理并发度，进而影响到整个job的处理速度
那么，mapTask并行实例是否越多越好呢？其并行度又是如何决定呢？

1 mapTask并行度的决定机制

一个job的mapTask并行度由客户端在提交job时决定。

客户端对map阶段并行度的规划的基本逻辑为：
1. 将待处理数据执行逻辑切片（即按照一个特定切片大小，将待处理数据划分成逻辑上的多个split）
2. 为每一个split分配一个mapTask并行实例处理

这段逻辑及形成的切片规划描述文件，由FileInputFormat实现类的getSplits()方法完成，其过程如下图：
这里写图片描述

2 FileInputFormat切片机制

1. 切片定义在InputFormat类中的getSplit()方法

2. FileInputFormat中默认的切片机制：

a)  简单

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Hadoop进阶之MR中MapTask并行度决定机制及切片机制

前言mapTask并行度的决定机制FileInputFormat切片机制切片定义在InputFormat类中的getSplit方法FileInputFormat中默认的切片机制FileInputFormat中切片的大小的参数配置map并行度的经验之谈ReduceTask并行度的决定前言maptask的并行度决定map阶段的任务处理并发度，进而影响到整个j
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。