mapreduce自定义分区及分箱

MapReduce默认使用HashPartitioner进行分区,但在数据倾斜或需要按特定条件分文件保存时,需要自定义分区。自定义分区可以通过重写getPartition方法,如随机打乱key来解决数据倾斜。此外,利用MultipleOutput进行分箱,实现多路径输出,方便查找内容,特别是在文件数量较多时。
摘要由CSDN通过智能技术生成

分区 –数据发送给哪个reduce
分箱 –结果输出到哪个目录


mapreduce分区/Partition

mapreduce默认使用HashPartitioner进行分区。
源码如下:

public class HashPartitioner<K, V> extends Partitioner<K, V> {
   
  /** Use {
   @link Object#hashCode()} to partition. */
  public int getPartition(K key, V value, int numReduceTasks) {
    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
  }
}

从上面的源码可以看出,
1.首先根据key取hash值,相同key的hash值相同,所以key相同的键会被发送到相同的reduce。
2.然后与最大值相与(&),得到一个正整数
3.求余,余数即是该《key,value》将被发送到的reduce

HashPartitioner能够将数据均衡的发送到reduce,这已经能够满足大部分程序的需求。

一.但有时,由于发生数据倾斜

导致过多的《key,value》被发送到同一reduce,个别reduce运行极慢,严重拖后了程序运行速度。

二.还有时需要对输出的结果进行分文件保存

一个简单的例子就是分地域,分性别等等条件,将相同类别的数据输出到同一文件

重写自定义分区可以解决上述问题:

1.数据倾斜

1.1 新建类NewPartition,继承HashPartitioner
1.2重写getPartition方法
1.3 对key进行随机打乱操作,这里进行了两种操作,先把时间作为随机数和key拼接在一起,然后通过MD5Util对新key进行加密操作,这样再得出的hash值基本唯一

/**
 * 重写自定义分区
 * @author gaojunyu
 */
public 
MapReduce是一种分布式计算模型,通常用于处理大规模数据集。在Hadoop等基于MapReduce框架的环境中,如果你需要对Mapper输出的数据进行自定义排序,这通常发生在Reducer阶段之前,因为Reduce操作依赖于前一阶段的排序结果。 自定义排序主要通过`KeyComparator`接口来实现。在这个接口中,你需要提供两个关键函数: 1. `compare()`: 这个方法用于比较两组键值对的键,返回一个整数值表示它们之间的相对顺序,如小于0、等于0或大于0。 2. `equals()`: 如果你的键是复杂的对象,这里还应该重写这个方法,使得具有相等键的对象被认为是相等的。 创建自定义`KeyComparator`并设置给`Job.setSortComparatorClass()`方法,之后Mapper的输出会被这个比较器排序,然后再传递给Reducer。例如: ```java import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.lib.input.KeyValueTextInputFormat; import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat; public class CustomSortJob { public static void main(String[] args) throws Exception { Job job = Job.getInstance(); job.setJarByClass(CustomSortJob.class); job.setMapperClass(MyMapper.class); job.setReducerClass(MyReducer.class); // 设置自定义排序 job.setOutputKeyClass(Text.class); job.setOutputValueClass(Text.class); job.setSortComparatorClass(CustomKeyComparator.class); // 其他配置... job.waitForCompletion(true); } } ``` 在这个例子中,`CustomKeyComparator`类应包含上述提到的`compare()`和`equals()`方法,并根据你的需求定义排序规则。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值