mapreduce自定义分区及分箱

最新推荐文章于 2020-02-01 08:30:42 发布

A宇

最新推荐文章于 2020-02-01 08:30:42 发布

阅读量1.3k

点赞数

分类专栏： hadoop MapReduce java 文章标签： mapreduce 数据源码

本文链接：https://blog.csdn.net/zhen2012/article/details/77932737

版权

MapReduce默认使用HashPartitioner进行分区，但在数据倾斜或需要按特定条件分文件保存时，需要自定义分区。自定义分区可以通过重写getPartition方法，如随机打乱key来解决数据倾斜。此外，利用MultipleOutput进行分箱，实现多路径输出，方便查找内容，特别是在文件数量较多时。

摘要由CSDN通过智能技术生成

分区 –数据发送给哪个reduce
分箱 –结果输出到哪个目录

mapreduce分区/Partition

mapreduce默认使用HashPartitioner进行分区。
源码如下：

public class HashPartitioner<K, V> extends Partitioner<K, V> {
   
  /** Use {
   @link Object#hashCode()} to partition. */
  public int getPartition(K key, V value, int numReduceTasks) {
    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
  }
}

从上面的源码可以看出，
1.首先根据key取hash值,相同key的hash值相同，所以key相同的键会被发送到相同的reduce。
2.然后与最大值相与(&)，得到一个正整数
3.求余，余数即是该《key,value》将被发送到的reduce

HashPartitioner能够将数据均衡的发送到reduce，这已经能够满足大部分程序的需求。

一.但有时，由于发生数据倾斜

导致过多的《key,value》被发送到同一reduce，个别reduce运行极慢，严重拖后了程序运行速度。

二.还有时需要对输出的结果进行分文件保存

一个简单的例子就是分地域，分性别等等条件，将相同类别的数据输出到同一文件

重写自定义分区可以解决上述问题：

1.数据倾斜

1.1 新建类NewPartition，继承HashPartitioner
1.2重写getPartition方法
1.3 对key进行随机打乱操作,这里进行了两种操作，先把时间作为随机数和key拼接在一起，然后通过MD5Util对新key进行加密操作，这样再得出的hash值基本唯一

/**
 * 重写自定义分区
 * @author gaojunyu
 */
public

最低0.47元/天解锁文章

A宇

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录