分区 –数据发送给哪个reduce
分箱 –结果输出到哪个目录
mapreduce分区/Partition
mapreduce默认使用HashPartitioner进行分区。
源码如下:
public class HashPartitioner<K, V> extends Partitioner<K, V> {
/** Use {
@link Object#hashCode()} to partition. */
public int getPartition(K key, V value, int numReduceTasks) {
return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
}
}
从上面的源码可以看出,
1.首先根据key取hash值,相同key的hash值相同,所以key相同的键会被发送到相同的reduce。
2.然后与最大值相与(&),得到一个正整数
3.求余,余数即是该《key,value》将被发送到的reduce
HashPartitioner能够将数据均衡的发送到reduce,这已经能够满足大部分程序的需求。
一.但有时,由于发生数据倾斜
导致过多的《key,value》被发送到同一reduce,个别reduce运行极慢,严重拖后了程序运行速度。
二.还有时需要对输出的结果进行分文件保存
一个简单的例子就是分地域,分性别等等条件,将相同类别的数据输出到同一文件
重写自定义分区可以解决上述问题:
1.数据倾斜
1.1 新建类NewPartition,继承HashPartitioner
1.2重写getPartition方法
1.3 对key进行随机打乱操作,这里进行了两种操作,先把时间作为随机数和key拼接在一起,然后通过MD5Util对新key进行加密操作,这样再得出的hash值基本唯一
/**
* 重写自定义分区
* @author gaojunyu
*/
public