Hadoop 3.x|第十一天|MapReduce框架原理（Shuffle机制里的Partition分区）

最新推荐文章于 2024-05-20 15:33:27 发布

z754916067

最新推荐文章于 2024-05-20 15:33:27 发布

阅读量118

点赞数

分类专栏：数据仓库文章标签： hadoop

本文链接：https://blog.csdn.net/z754916067/article/details/124273100

版权

数据仓库专栏收录该内容

41 篇文章 3 订阅

订阅专栏

定义

Map方法之后，Reduce 方法之前的数据处理过程称之为 Shuffle。

总图

在这里插入图片描述

文字流程

从Map方法出来之后，数据首先打上分区的编号，再进入环形缓冲区（默认100M，左侧存索引，右侧存数据。到达80%进行反向溢写，提高利用率）
溢写之前，对数据进行字典排序，对key的索引进行快排。
然后进行第一次溢写，产生index文件和落地的out文件。紧接着进行第N次溢写。
对所有out文件进行归并排序，还可以设置其combiner和压缩（优化手段）
然后把输出写到磁盘上，等待Reduce端来拉取。
ReduceTask拉取自己所在分区的数据，首先会存到内存上，如果内存不够，就会溢写到磁盘上。
最终对每个map来的数据归并排序。
按照相同key

Partition分区

默认分区

根据key的hashCode对ReduceTasks个数取模得到的。用户没法控制哪个key存储到哪个分区。
在这里插入图片描述

自定义Partitioner步骤

自定义类继承Partitioner，重写getPartition()方法

public class CustomPartitioner extends Partitioner<Text, FlowBean> {
	@Override
	public int getPartition(Text key, FlowBean value, int numPartitions) {
		// 控制分区代码逻辑
		… …
		return partition; 
				  } 
			}

在Job驱动中，设置自定义Partitioner

job.setPartitionerClass(CustomPartitioner.class);

自定义Partition后，要根据自定义Partitioner的逻辑设置相应数量的ReduceTask（不然默认为1，会走自己的方法）

job.setNumReduceTasks(5);

分区总结

如果ReduceTask的数量> getPartition的结果数，则会多产生几个空的输出文件part-r-000xx；
如果1<ReduceTask的数量<getPartition的结果数，则有一部分分区数据无处安放，会Exception；
如果ReduceTask的数量=1，则不管MapTask端输出多少个分区文件，最终结果都交给这一个ReduceTask，最终也就只会产生一个结果文件 part-r-00000；
分区号必须从零开始，逐一累加。
综合以上可得，要不为1 要不大于

案例实操

需求

将统计结果按照手机归属地不同省份输出到不同文件中（分区）
期望输出数据：手机号 136、137、138、139 开头都分别放到一个独立的 4 个文件中，其他开头的放到一个文件中。

实现方法

在之前流量分类的基础上，增加一个分区类。
136-分区0
137-分区1
138-分区2
139-分区3
其他-分区4

类的继承

创建一个partition类并继承，注意接收的是map方法里面出来的kv

package com.mapreduce.partitionTest;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;
public class ProvincePartitioner extends Partitioner<Text,FlowBean> {
    @Override
    public int getPartition(Text text, FlowBean flowBean, int i) {
        return 0;
    }
}

partition类实现代码

package com.mapreduce.partitionTest;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;
public class ProvincePartitioner extends Partitioner<Text,FlowBean> {
    @Override
    public int getPartition(Text text, FlowBean flowBean, int i) {
        //Text为手机号 获取其前三位
        String phone = text.toString();
        String pre = phone.substring(0,3);
        //根据pre设置分区号
        int par;
        if("136".equals(pre)){
            par = 0;
        }else if("137".equals(pre)){
            par = 1;
        }else if("138".equals(pre)){
            par = 2;
        }else if("139".equals(pre)){
            par = 3;
        }else {
            par = 4;
        }
        return par;
    }
}

在Driver驱动类里设置分区器和ReduceTask数量

        //指定自定义分区器
        job.setPartitionerClass(ProvincePartitioner.class);
        //同时指定相应数量的 ReduceTask
        job.setNumReduceTasks(5);

z754916067

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hadoop 3.x|第十一天|MapReduce框架原理（Shuffle机制里的Partition分区）

目录定义总图文字流程Partition分区默认分区自定义Partitioner步骤分区总结案例实操需求实现方法类的继承partition类实现代码在Driver驱动类里设置分区器和ReduceTask数量定义Map方法之后，Reduce 方法之前的数据处理过程称之为 Shuffle。总图文字流程从Map方法出来之后，数据首先打上分区的编号，再进入环形缓冲区（默认100M，左侧存索引，右侧存数据。到达80%进行反向溢写，提高利用率）溢写之前，对数据进行字典排序，对key的索引进行快排。然后进
复制链接

扫一扫