hadoop中的Partition分区案例

最新推荐文章于 2024-06-19 21:56:24 发布

落花流水i

最新推荐文章于 2024-06-19 21:56:24 发布

阅读量560

点赞数

分类专栏： hadoop relevant

本文链接：https://blog.csdn.net/weixin_44080445/article/details/106260508

版权

hadoop relevant 专栏收录该内容

28 篇文章 1 订阅

订阅专栏

先来看一下默认的Partition

public class HashPartitioner<K, V> extends Partitioner<K, V> {

  /** Use {@link Object#hashCode()} to partition. */
  public int getPartition(K key, V value,
                          int numReduceTasks) {
    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
  }

}

因为numReduceTasks的值默认为1，所以对1取1恒等于0 ，返回值是分区的标记这也就是我们MR运行文件后的文件都是part-00000的原因。

自定义分区的步骤：

在这里插入图片描述
案例实操：
将如下文件的第二列（手机号），第5列（上行流量），第6列（下行流量）取出，手机号136、137、138、139开头都分别放到一个独立的4个文件中，其他开头的手机号放到一个文件中，并且在每个文件中将上行流量和下行流量的和计算出来。

在这里插入图片描述
1.自定义bean对象

package com.bean;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
import org.apache.hadoop.io.Writable;

    // 1 实现writable接口
public class FlowBean implements Writable{

    private long upFlow;
    private long downFlow;
    private long sumFlow;

    //2  反序列化时，需要反射调用空参构造函数，所以必须有一个空参的构造器
    public FlowBean() {
        super();
    }

    public FlowBean(long upFlow, long downFlow) {
        super();
        this.upFlow = upFlow;
        this.downFlow = downFlow;
        this.sumFlow = upFlow + downFlow;
    }

    //3  写序列化方法

    public void write(DataOutput out) throws IOException {
        out.writeLong(upFlow);
        out.writeLong(downFlow);
        out.writeLong(sumFlow);
    }

    //4 反序列化方法,注意反序列化方法读顺序必须和写序列化方法的写顺序必须一致

    public void readFields(DataInput in) throws IOException {
        this.upFlow  = in.readLong();
        this.downFlow = in.readLong();
        this.sumFlow = in.readLong();
    }

    // 5 编写toString方法，方便后续打印到文本
    @Override
    public String toString() {
        return upFlow + "\t" + downFlow + "\t" + sumFlow;
    }

    public long getUpFlow() {
        return upFlow;
    }

    public void setUpFlow(long upFlow) {
        this.upFlow = upFlow;
    }

    public long getDownFlow() {
        return downFlow;
    }

    public void setDownFlow(long downFlow) {
        this.downFlow = downFlow;
    }

    public long getSumFlow() {
        return sumFlow;
    }

    public void setSumFlow(long sumFlow) {
        this.sumFlow = sumFlow;
    }

    public void set(long sum_upFlow, long sum_downFlow) {
        upFlow = sum_upFlow;
        downFlow = sum_downFlow;
        sumFlow = sum_upFlow+sum_downFlow;
    }

}

2.Mapper阶段

package com.bean;

import java.io.IOException;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class FlowCountMapper extends Mapper<LongWritable, Text, Text, FlowBean>{

    FlowBean v = new FlowBean();
    Text k = new Text();

    @Override
    protected void map(LongWritable key, Text value, Context context)	throws IOException, InterruptedException {

        // 1 获取一行
        String line = value.toString();

        // 2 切割字段
        String[] fields = line.split("\t");

        // 3 封装对象
       k.set(fields[1]); //手机号作为Key
       v.setUpFlow(Long.parseLong(fields[fields.length-3]));   //上行流量
       v.setDownFlow(Long.parseLong(fields[fields.length-2]));   //下行流量

        // 4 写出
        context.write(k, v);
    }
}

3.Reducer阶段

package com.bean;

import java.io.IOException;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class FlowCountReducer extends Reducer<Text, FlowBean, Text, FlowBean> {

    @Override
    protected void reduce(Text key, Iterable<FlowBean> values, Context context)throws IOException, InterruptedException {

        long sum_upFlow = 0;
        long sum_downFlow = 0;

        // 1 遍历所用bean，将其中的上行流量，下行流量分别累加，因为可能出现同一个手机号
        for (FlowBean flowBean : values) {
            sum_upFlow += flowBean.getUpFlow();
            sum_downFlow += flowBean.getDownFlow();
        }

        // 2 封装对象
        FlowBean bean = new FlowBean(sum_upFlow, sum_downFlow);
        bean.set(sum_upFlow,sum_downFlow);

        // 3 写出
        context.write(key, bean);
    }
}

自定义分区类

package com.bean;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

public class ProvincePartitioner extends Partitioner<Text, FlowBean> {
    // <Text, FlowBean>   注意K,V为Mapper端的输出
    @Override
    public int getPartition(Text key, FlowBean value, int numPartitions) {

        // 1 获取电话号码的前三位
        String preNum = key.toString().substring(0, 3);

        int partition = 4;

        // 2 判断手机号的前三位与原数据对比
        if ("136".equals(preNum)) {
            partition = 0;
        }else if ("137".equals(preNum)) {
            partition = 1;
        }else if ("138".equals(preNum)) {
            partition = 2;
        }else if ("139".equals(preNum)) {
            partition = 3;
        }

        return partition;
    }
}

驱动类

package com.bean;

import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.partition.HashPartitioner;

public class FlowsumDriver {

    public static void main(String[] args) throws IllegalArgumentException, IOException, ClassNotFoundException, InterruptedException {

        // 输入输出路径需要根据自己电脑上实际的输入输出路径设置
        args = new String[] { "e:/bean/bean.txt", "e:/output1" };

        // 1 获取配置信息，或者job对象实例
        Configuration configuration = new Configuration();
        Job job = Job.getInstance(configuration);

        // 6 指定本程序的jar包所在的本地路径
        job.setJarByClass(FlowsumDriver.class);

        // 2 指定本业务job要使用的mapper/Reducer业务类
        job.setMapperClass(FlowCountMapper.class);
        job.setReducerClass(FlowCountReducer.class);

        // 3 指定mapper输出数据的kv类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(FlowBean.class);

        // 4 指定最终输出的数据的kv类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(FlowBean.class);

        ***// 指定自定义数据分区
        job.setPartitionerClass(ProvincePartitioner.class);
        // 指定相应数量的reduce task
        job.setNumReduceTasks(5);***


        // 5 指定job的输入原始文件所在目录
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        // 7 将job中配置的相关参数，以及job所用的java类所在的jar包， 提交给yarn去运行
        boolean result = job.waitForCompletion(true);
        System.exit(result ? 0 : 1);

    }
}

运行结果：

在这里插入图片描述

part0到part5依次为下图所示，可以看到文件是我们的预期结果。

在这里插入图片描述

分区总结：

（1）如果ReduceTask的数量>getPartition的结果数，则会多产生几个空的输出文件part-r-000xx；
（2）如果ReduceTask的数量<getPartition的结果数，则有一部分分区数据无处安放，会Exception；
（3）如果ReduceTask的数量=1，则不管MapTask端输出多少个分区文件，最终结果都交给这一个ReduceTask,最终也就只会产生一个结果文件part-r-00000；
（4）分区号必须从零开始，逐一累加。

我们可以根据上面的实例再次分析一下，我们自定义分区数为5。

(1)job.setNumReduceTasks(1).会正常运行，只不过会产生一个输出文件，不会按照我们的预期对输出文件分区。
(2job.setNumReduceTasks(2);会报错。
(3) job.setNumRecuceTasks(6);大于5，程序会正常运行，但是会产生空文件，因为分区就5个。

落花流水i

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
hadoop中的Partition分区案例

先来看一下默认的Partitionpublic class HashPartitioner<K, V> extends Partitioner<K, V> { /** Use {@link Object#hashCode()} to partition. */ public int getPartition(K key, V value, int numReduceTasks) { return (key.has
复制链接

扫一扫

专栏目录