Hadoop（三）——MapReduce④Shuffle机制

最新推荐文章于 2023-07-18 15:04:16 发布

zz60708320

最新推荐文章于 2023-07-18 15:04:16 发布

阅读量261

点赞数

分类专栏： hadoop

本文链接：https://blog.csdn.net/zz60708320/article/details/102265968

版权

Shuffle机制

shuffle过程详解：
1）MapTask收集我们的map()方法输出的kv对，放到内存缓冲区中
2）从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件
3）多个溢出文件会被合并成大的溢出文件
4）在溢出过程及合并的过程中，都要调用Partitioner进行分区和针对key进行排序
5）ReduceTask根据自己的分区号，去各个MapTask机器上取相应的结果分区数据
6）ReduceTask会取到同一个分区的来自不同MapTask的结果文件，ReduceTask会将这些文件再进行合并（归并排序）
7）合并成大文件后，Shuffle的过程也就结束了，后面进入ReduceTask的逻辑运算过程（从文件中取出一个一个的键值对Group，调用用户自定义的reduce()方法）

PS：注意
Shuffle中的缓冲区大小会影响到MapReduce程序的执行效率，原则上说，缓冲区越大，磁盘io的次数越少，执行速度就越快。
缓冲区的大小可以通过参数调整，参数：io.sort.mb默认100M。

Partition分区

默认Partition分区

public class HashPartitioner<K,V> extends Partitioner<K,V>{
   
	public int getPartitione(K key,V value,int numReduceTasks){
   
		return(key.hashCode() & Integer.MAX_VALUE) & numReduceTasks;
		}
}
默认控制分区是根据key的hashCode和ReduceTask个数取模得到的，用户没法控制哪个key存储到哪个分区。

自定义Partitioner步骤
1）自定义类继承Partitioner，重写getPartition()方法

public class CustomPartitioner extends Partitioner<K,V>{
   
	@Override
	public int getPartition(K key,V value,int num){
   
		// 控制分区代码逻辑
		...
		return partition;
		}
	}

2）在Job驱动中，设置自定义的Partitioner

job.setPartitionerClass(CustomPartitioner.class);

3）自定义Partition后，要根据自定义Partitioner的逻辑设置相应数量的ReduceTask

job.setNumReduceTasks(num);

partitioner类Demo：

/**
*Partitioner抽象类其两个泛型参数分别为从 mapper 接收到的key和value。
*/
public class FenflowcountPartitioner extends Partitioner<Text, FlowBean>{
   
	
	private static HashMap<String, Integer> fenhash = new

最低0.47元/天解锁文章

zz60708320

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop（三）——MapReduce④Shuffle机制

reduce task一般来说，有多少个reduce task，就会产生多少个结果文件。默认情况下，shuffle分发的规则叫分区，其策略是调用Partition的实现类 hashpartitioner。则无论存在多少种数据，其最终结果均为0或1，并分别分发给task0或task1。要想修改reduce task数量，首先需要自定义一个partitioner的类，并继承Partitione...
复制链接

扫一扫