hadoop(五)MapReduce框架原理及工作机制

hadoop系列笔记
hadoop(一)入门、hadoop架构、集群环境搭建.
hadoop(二)HDFS概述、shell操作、客户端操作(各种API操作)以及hdfs读写流程.
hadoop(三)hdfs的NameNode和DataNode工作机制.
hadoop(四)MapReduce入门及序列化实操.
hadoop(五)MapReduce框架原理及工作机制.
hadoop(六)hadoop数据压缩、yarn架构及工作原理、hadoop企业优化.

第三章 MapReduce框架原理

3.1 InputFormat数据输入

在这里插入图片描述

3.1.1 切片与MapTask并行度决定机制

  • 1.问题引出
    • MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。
    • 思考:1G的数据,启动8个MapTask,可以提高集群的并发处理能力。那么1K的数据,也启动8个MapTask,会提高集群性能吗?MapTask并行任务是否越多越好呢?哪些因素影响了MapTask并行度?
  • 2.MapTask并行度决定机制
    • 数据块:Block是HDFS物理上把数据分成一块一块。
    • 数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。
      在这里插入图片描述
  • 例如 文件夹里有三个文件分别是300M,10M,10M,需要切几片?
    答案是五片,先切300M三片(切片只考虑每个文件单独切片,不考虑整体),之后各一片,

3.1.2 Job提交流程源码和切片源码详解

1.Job提交流程源码详解

waitForCompletion()

submit();

// 1建立连接
	connect();	
		// 1)创建提交Job的代理
		new Cluster(getConfiguration());
			// (1)判断是本地yarn还是远程
			initialize(jobTrackAddr, conf); 

// 2 提交job
submitter.submitJobInternal(Job.this, cluster)
	// 1)创建给集群提交数据的Stag路径
	Path jobStagingArea = JobSubmissionFiles.getStagingDir(cluster, conf);

	// 2)获取jobid ,并创建Job路径
	JobID jobId = submitClient.getNewJobID();

	// 3)拷贝jar包到集群
copyAndConfigureFiles(job, submitJobDir);	
	rUploader.uploadFiles(job, jobSubmitDir);

// 4)计算切片,生成切片规划文件
writeSplits(job, submitJobDir);
		maps = writeNewSplits(job, jobSubmitDir);
		input.getSplits(job);

// 5)向Stag路径写XML配置文件
writeConf(conf, submitJobFile);
	conf.writeXml(out);

// 6)提交Job,返回提交状态
status = submitClient.submitJob(jobId, submitJobDir.toString(), job.getCredentials());

在这里插入图片描述
2.FileInputFormat切片源码解析(input.getSplits(job))
在这里插入图片描述

3.1.3 FileInputFormat切片机制

在这里插入图片描述
在这里插入图片描述

3.1.4CombineTextInputFormat切片机制

  • 框架默认的TextInputFormat切片机制是对任务按文件规划切片,不管文件多小,都会是一个单独的切片,都会交给一个MapTask,这样如果有大量小文件,就会产生大量的MapTask,处理效率极其低下。
  • 1、应用场景:
    • CombineTextInputFormat用于小文件过多的场景,它可以将多个小文件从逻辑上规划到一个切片中,这样,多个小文件就可以交给一个MapTask处理。
  • 2、虚拟存储切片最大值设置
    • CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);// 4m
      注意:虚拟存储切片最大值设置最好根据实际的小文件大小情况来设置具体的值。
  • 3、切片机制
    • 生成切片过程包括:虚拟存储过程和切片过程二部分:
      在这里插入图片描述
    • (1)虚拟存储过程:
      • 将输入目录下所有文件大小,依次和设置的setMaxInputSplitSize值比较,如果不大于设置的最大值,逻辑上划分一个块。如果输入文件大于设置的最大值且大于两倍,那么以最大值切割一块;当剩余数据大小超过设置的最大值且不大于最大值2倍,此时将文件均分成2个虚拟存储块(防止出现太小切片)。
      • 例如setMaxInputSplitSize值为4M,输入文件大小为8.02M,则先逻辑上分成一个4M。剩余的大小为4.02M,如果按照4M逻辑划分,就会出现0.02M的小的虚拟存储文件,所以将剩余的4.02M文件切分成(2.01M和2.01M)两个文件。
    • (2)切片过程:
      • (a)判断虚拟存储的文件大小是否大于setMaxInputSplitSize值,大于等于则单独形成一个切片。
      • (b)如果不大于则跟下一个虚拟存储文件进行合并,共同形成一个切片。
      • (c)测试举例:有4个小文件大小分别为1.7M、5.1M、3.4M以及6.8M这四个小文件,则虚拟存储之后形成6个文件块,大小分别为:
        1.7M,(2.55M、2.55M),3.4M以及(3.4M、3.4M)
        最终会形成3个切片,大小分别为:
        (1.7+2.55)M,(2.55+3.4)M,(3.4+3.4)M-

3.1.5FileInputFormat实现类

  • FileInputFormat 常见的接口实现类包括:TextInputFormat、KeyValueTextInputFormat、NLineInputFormat、CombineTextInputFormat和自定义InputFormat等。
  • 1)TextInputFormat
    • TextInputFormat 是默认的 InputFormat。每条记录是一行输入。键是LongWritable 类型,存储该行在整个文件中的字节偏移量。 值是这行的内容,不包括任何行终止符(换行符合回车符),它被打包成一个 Text 对象。
    • 切片方法:按照父类FileInputFormat的切片方式且切片,以块大小为切片大小,按照文件单独切片,依据1.1倍的切片大小划分切片
    • kv方法:LineRecordReader,偏移值为key,内容为value
    • 以下是一个示例,比如,一个分片包含了如下4条文本记录:
Rich learning form
Intelligent learning engine
Learning more convenient
From the real demand for more close to the enterprise

每条记录表示为以下键/值对:

(0,Rich learning form)
(19,Intelligent learning engine)
(47,Learning more convenient)
(72,From the real demand for more close to the enterprise)
  • 2)KeyValueTextInputFormat
    • 每一行均为一条记录, 被分隔符(缺省是tab(\t))分割为key(Text),value(Text)。可以通过mapreduce.input.keyvaluelinerecordreader.key.value,separator属性(或者旧版本 API 中的 key.value.separator.in.input.line)来设定分隔符。 它的默认值是一个制表符。
    • 切片方法:按照父类FileInputFormat的切片方式且切片,以块大小为切片大小,按照文件单独切片,依据1.1倍的切片大小划分切片
    • kv方法:KeyValueLineRecordReader
    • 以下是一个示例,输入是一个包含4条记录的分片。其中——>表示一个(水平方向的)制表符:
line1 ——>Rich learning form
line2 ——>Intelligent learning engine
line3 ——>Learning more convenient
line4 ——>From the real demand for more close to the enterprise

每条记录表示为以下键/值对:

(line1,Rich learning form)
(line2,Intelligent learning engine)
(line3,Learning more convenient)
(line4,From the real demand for more close to the enterprise)
  • 3)NLineInputFormat
    • 通过 TextInputFormat 和 KeyValueTextInputFormat,每个 Mapper 收到的输入行数不同。行数取决于输入分片的大小和行的长度。 如果希望 Mapper 收到固定行数的输入,需要将 NLineInputFormat 作为 InputFormat。与 TextInputFormat 一样, 键是文件中行的字节偏移量,值是行本身。N 是每个 Mapper 收到的输入行数。N 设置为1(默认值)时,每个 Mapper 正好收到一行输入。 mapreduce.input.lineinputformat.linespermap 属性(在旧版本 API 中的 mapred.line.input.format.linespermap 属性)实现 N 值的设定。
    • 切片方法:自定义,N行一片
    • kv方法:LineRecordReader
      以下是一个示例,仍然以上面的4行输入为例。
Rich learning form
Intelligent learning engine
Learning more convenient
From the real demand for more close to the enterprise

例如,如果 N 是2,则每个输入分片包含两行。一个 mapper 收到前两行键值对:

(0,Rich learning form)
(19,Intelligent learning engine)

另一个 mapper 则收到后两行:

(47,Learning more convenient)
(72,From the real demand for more close to the enterprise)
  • 4)其他的实现类
  • 上面提到的CombineTextInputFormat也是实现类
  • FixedLengthInputFormat
    • 切片方法:按照父类FileInputFormat的切片方式且切片,以块大小为切片大小,按照文件单独切片,依据1.1倍的切片大小划分切片
    • kv方法:FixedLengthRecordReader
  • SequenceFileInputFormat
    • 切片方法:按照父类FileInputFormat的切片方式且切片,以块大小为切片大小,按照文件单独切片,依据1.1倍的切片大小划分切片
    • kv方法:SequenceFileRecordReader,

3.1.9 自定义InputFormat

  • 在企业开发中,Hadoop框架自带的InputFormat类型不能满足所有应用场景,需要自定义InputFormat来解决实际问题
  • 自定义InputFormat的基本步骤如下:
    • (1)自定义一个类继承FileInputFormat
    • (2)改写RecordReader,实现一次读取一个完整文件封装为KV
    • (3)在输出时使用SequenceFileOutPutFormat输出合并文件

3.1.10 自定义InputFormat案例实操

  • 无论HDFS还是MapReduce,在处理小文件时效率都非常低,但又难免面临处理大量小文件的场景,此时,就需要有相应解决方案。可以自定义InputFormat实现小文件的合并。
  • 1.需求
    • 将多个小文件合并成一个SequenceFile文件(SequenceFile文件是Hadoop用来存储二进制形式的key-value对的文件格式),SequenceFile里面存储着多个文件,存储的形式为文件路径+名称为key,文件内容为value。
    • (1)输入数据
    • 假设随便新建三个TXT文件作为输入
  • 2.需求分析
    在这里插入图片描述
  • 3.程序实现
    (1)自定义InputFromat
package com.lyj.inputformat;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.JobContext;
import org.apache.hadoop.mapreduce.RecordReader;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import java.io.IOException;

/**
 * @author liuyongjun
 * @date 2020-07-04-15:38
 */
public class WholeFileInputFormat extends FileInputFormat<Text, BytesWritable> {
    @Override
    protected boolean isSplitable(JobContext context, Path filename) {
        //保证同一个文件不被切片,所以我们输入三个文件,会切三片
        return false;
    }

    @Override
    public RecordReader<Text, BytesWritable> createRecordReader(InputSplit split, TaskAttemptContext context) throws IOException, InterruptedException {
        WholeFileRecordReader recordReader = new WholeFileRecordReader();
        recordReader.initialize(split, context);

        return recordReader;
    }
}

(2)自定义RecordReader类

package com.lyj.inputformat;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.IOUtils;


import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.RecordReader;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;

import java.io.IOException;
//自定义RecordReader,处理一个文件,把这个文件直接读成一个kv值
/**
 * @author liuyongjun
 * @date 2020-07-04-16:16
 */
public class WholeFileRecordReader extends RecordReader<Text, BytesWritable> {
    private FileSplit split;
    private Configuration configuration;

    private boolean isProgress= true;
    FSDataInputStream fis;
    private Text k = new Text();
    private BytesWritable v = new BytesWritable();
    /**
     * TODO 初始化方法,框架会在开始的时候调用一次
     * @param split 读到的切片范围
     * @param context 整个的任务信息
     * @author liuyongjun
     * @date 2020/7/4 0004
     **/
    @Override
    public void initialize(InputSplit split, TaskAttemptContext context) throws IOException, InterruptedException {

        this.split = (FileSplit) split;
        configuration = context.getConfiguration();

    }
    /**
     * TODO 类似迭代器,有一个指针,读下一组key、value,
     * @param
     * @return boolean 如果读到返回true,读完了,返回false
     * @author liuyongjun
     * @date 2020/7/4 0004
     **/
    @Override
    public boolean nextKeyValue() throws IOException, InterruptedException {
        //核心业务逻辑处理
        if(isProgress){
            //定义缓存区
            byte[] buf = new byte[(int) split.getLength()];
            try {
                //1 获取fs对象
                Path path = split.getPath();
                FileSystem fs = path.getFileSystem(configuration);

                //2.获取输入流
                fis = fs.open(path);

                //3 拷贝  读取文件内容
                IOUtils.readFully(fis,buf,0,buf.length);

                //4 封装v 输出文件内容
                v.set(buf,0,buf.length);

                //5.封装k
                k.set(path.toString());

            } catch (IOException e) {
                e.printStackTrace();
            } finally {
                //6关闭资源
                IOUtils.closeStream(fis);
            }
            isProgress = false;
            return true;
        }
        return false;

    }
    /**
     * TODO 获取当前读到的key
     * @param
     * @return 当前key
     * @author liuyongjun
     * @date 2020/7/4 0004
     **/
    @Override
    public Text getCurrentKey() throws IOException, InterruptedException {

        return k;
    }
    /**
     * TODO 获取当前读到的value
     * @param
     * @return 当前的value
     * @author liuyongjun
     * @date 2020/7/4 0004
     **/
    @Override
    public BytesWritable getCurrentValue() throws IOException, InterruptedException {
        return v;
    }
    /**
     * TODO  当前数据读取的进度
     * 因为读文件直接出一个kv值,,所以要么0(没读)要么1(读完了),没有过程
     * @return 当前进度
     * @author liuyongjun
     * @date 2020/7/4 0004
     **/
    @Override
    public float getProgress() throws IOException, InterruptedException {
        return 0 ;
    }
    /**
     * TODO 关闭资源
     * @param
     * @author liuyongjun
     * @date 2020/7/4 0004
     **/
    @Override
    public void close() throws IOException {

    }
}

(3)编写SequenceFileMapper类处理流程

package com.lyj.inputformat;

import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;

/**
 * @author liuyongjun
 * @date 2020-07-05-11:21
 */
public class SequenceFileMapper extends Mapper<Text, BytesWritable, Text, BytesWritable> {
    @Override
    protected void map(Text key, BytesWritable value, Context context) throws IOException, InterruptedException {
        context.write(key,value);
    }
}

(4)编写SequenceFileReducer类处理流程

package com.lyj.inputformat;

import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
 * @author liuyongjun
 * @date 2020-07-05-16:51
 */
public class SequenceFileReducer extends Reducer<Text, BytesWritable, Text, BytesWritable> {
    @Override
    protected void reduce(Text key, Iterable<BytesWritable> values, Context context) throws IOException, InterruptedException {
        for (BytesWritable value : values) {
            context.write(key,value);
        }

    }
}

(5)编写SequenceFileDriver类处理流程

package com.lyj.inputformat;


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.BytesWritable;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat;



import java.io.IOException;

/**
 * @author liuyongjun
 * @date 2020-07-04-23:30
 */
public class SequenceFileDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        // 1 获取job对象
        Job job = Job.getInstance(new Configuration());

        // 2 设置jar包存储位置、关联自定义的mapper和reducer
        job.setJarByClass(SequenceFileDriver.class);
        job.setMapperClass(SequenceFileMapper.class);
        job.setReducerClass(SequenceFileReducer.class);

        // 3 设置map输出端的kv类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(BytesWritable.class);

        // 4 设置最终输出端的kv类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(BytesWritable.class);

        // 7设置输入的inputFormat
        job.setInputFormatClass(WholeFileInputFormat.class);

        // 8设置输出的outputFormat
        job.setOutputValueClass(SequenceFileOutputFormat.class);

        // 5 设置输入输出路径
        FileInputFormat.setInputPaths(job,new Path("d:/input"));
        FileOutputFormat.setOutputPath(job,new Path("d:/output"));
        // 6 提交job
        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);


    }
}

3.2MapReduce工作流程

  • 1.流程示意图,如图
    在这里插入图片描述
    在这里插入图片描述
  • 2.流程详解
    上面的流程是整个MapReduce最全工作流程,但是Shuffle过程只是从第7步开始到第16步结束,具体Shuffle过程详解,如下:
    1)MapTask收集我们的map()方法输出的kv对,放到内存缓冲区中
    2)从内存缓冲区不断溢出本地磁盘文件,可能会溢出多个文件
    3)多个溢出文件会被合并成大的溢出文件
    4)在溢出过程及合并的过程中,都要调用Partitioner进行分区和针对key进行排序
    5)ReduceTask根据自己的分区号,去各个MapTask机器上取相应的结果分区数据
    6)ReduceTask会取到同一个分区的来自不同MapTask的结果文件,ReduceTask会将这些文件再进行合并(归并排序)
    7)合并成大文件后,Shuffle的过程也就结束了,后面进入ReduceTask的逻辑运算过程(从文件中取出一个一个的键值对Group,调用用户自定义的reduce()方法)
  • 3.注意
    Shuffle中的缓冲区大小会影响到MapReduce程序的执行效率,原则上说,缓冲区越大,磁盘io的次数越少,执行速度就越快。
    缓冲区的大小可以通过参数调整,参数:io.sort.mb默认100M。
    在这里插入图片描述

3.3 Shuffle机制

3.3.1 Shuffle机制

  • Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle。如图:
    在这里插入图片描述

3.3.2 Partition分区

  • 分区是分到一个分区号,根据分区号确定被分到哪个reducetask
  • 问题引出:要求将统计结果按照条件输出到不同文件中(分区)。比如:将统计结果按照手机归属地不同省份输出到不同文件中(分区)
  • 1)默认partition分区
    在这里插入图片描述
    默认分区是根据key的hashCode对reduceTasks个数取模得到的用户没法控制哪个key存储到哪个分区
  • 2)自定义Partitioner步骤
    (1)自定义类继承Partitioner,重写getPartition()方法
    (2)在job驱动中,设置自定义partitioner:
    (3)自定义partition后,要根据自定义partitioner的逻辑设置相应数量的reducetask
  • 3)注意:
    • 如果reduceTask的数量> getPartition的结果数,则会多产生几个空的输出文件part-r-000xx;
    • 如果1<reduceTask的数量<getPartition的结果数,则有一部分分区数据无处安放,会Exception;
    • 如果reduceTask的数量=1,则不管mapTask端输出多少个分区文件,最终结果都交给这一个reduceTask,最终也就只会产生一个结果文件 part-r-00000;
    • 分区号必须从零开始,逐一累加。
    • 例如:假设自定义分区数为5,则
      (1)job.setNumReduceTasks(1);会正常运行,只不过会产生一个输出文件
      (2)job.setNumReduceTasks(2);会报错
      (3)job.setNumReduceTasks(6);大于5,程序会正常运行,会产生空文件

3.3.3 Partition分区案例实操

  • 1.需求:将统计结果按照手机归属地不同省份输出到不同文件中(Partitioner)
    期望输出数据
    手机号136、137、138、139开头都分别放到一个独立的4个文件中,其他开头的放到一个文件中。
  • 2.需求分析
    在这里插入图片描述
  • 3.在案例2.3的基础上,增加一个分区类
package com.lyj.partition;

import com.lyj.flow.FlowBean;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

/**
 * @author liuyongjun
 * @date 2020-07-06-0:20
 */
public class MyPartitioner extends Partitioner<Text, FlowBean> {
    @Override
    public int getPartition(Text text, FlowBean flowBean, int numPartitions) {
        String phone = text.toString();

        switch(phone.substring(0,3)){
            case "136":
                return 0;
            case "137":
                return 1;
            case "138":
                return 2;
            case "139":
                return 3;
            default:
                return 4;
        }
    }
}
  • 4.在驱动函数中增加自定义数据分区设置和ReduceTask设置
package com.lyj.partition;

import com.lyj.flow.FlowBean;
import com.lyj.flow.FlowMapper;
import com.lyj.flow.FlowReducer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

/**
 * @author liuyongjun
 * @date 2020-07-02-14:11
 */
public class PartitionerDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        // 1 获取配置信息,或者job对象实例
        Job job = Job.getInstance(new Configuration());

        // 2 指定本程序的jar包所在的本地路径
        job.setJarByClass(PartitionerDriver.class);

        // 3 指定本业务job要使用的mapper/Reducer业务类
        job.setMapperClass(FlowMapper.class);
        job.setReducerClass(FlowReducer.class);

        // 8 指定自定义数据分区
        job.setPartitionerClass(MyPartitioner.class);
        // 9 同时指定相应数量的reduce task
        job.setNumReduceTasks(5);
        // 4 指定mapper输出数据的kv类型、
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(FlowBean.class);

        // 5 指定最终输出的数据的kv类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(FlowBean.class);

        // 6 指定job的输入原始文件所在目录
        FileInputFormat.setInputPaths(job, new Path("d:\\inputshuffertext"));
        FileOutputFormat.setOutputPath(job, new Path("d:\\output"));

        // 7 将job中配置的相关参数,以及job所用的java类所在的jar包, 提交给yarn去运行
        boolean result = job.waitForCompletion(true);
        System.exit(result ? 0 : 1);
    }
}

3.3.4 WritableComparable排序

3.3.4.1 概述
  • 排序是MapReduce框架中最重要的操作之一。
  • MapTask和ReduceTask均会对数据(按照key)进行排序。该操作属于Hadoop的默认行为。任何应用程序中的数据均会被排序,而不管逻辑上是否需要。
  • 默认排序是按照字典顺序排序,且实现该排序的方法是快速排序
  • 对于MapTask,它会将处理的结果暂时放到一个缓冲区中,当缓冲区使用率达到一定阈值后,再对缓冲区中的数据进行一次排序,并将这些有序数据写到磁盘上,而当数据处理完毕后,它会对磁盘上所有文件进行一次合并,以将这些文件合并成一个大的有序文件。
  • 对于ReduceTask,它从每个MapTask上远程拷贝相应的数据文件,如果文件大小超过一定阈值,则放到磁盘上,否则放到内存中。如果磁盘上文件数目达到一定阈值,则进行一次合并以生成一个更大文件;如果内存中文件大小或者数目超过一定阈值,则进行一次合并后将数据写到磁盘上。当所有数据拷贝完毕后,Reduce Task统一对内存和磁盘上的所有数据进行一次合并。
3.3.4.2 排序的分类:
  • (1)部分排序:
    MapReduce根据输入记录的键对数据集排序。保证输出的每个文件内部排序。
  • (2)全排序:
    如何用Hadoop产生一个全局排序的文件?最简单的方法是使用一个分区。但该方法在处理大型文件时效率极低,因为一台机器必须处理所有输出文件,从而完全丧失了MapReduce所提供的并行架构。
    替代方案:首先创建一系列排好序的文件;其次,串联这些文件;最后,生成一个全局排序的文件。主要思路是使用一个分区来描述输出的全局排序。例如:可以为上述文件创建3个分区,在第一分区中,记录的单词首字母a-g,第二分区记录单词首字母h-n, 第三分区记录单词首字母o-z。
  • (3)辅助排序:(GroupingComparator分组)
    Mapreduce框架在记录到达reducer之前按键对记录排序,但键所对应的值并没有被排序。甚至在不同的执行轮次中,这些值的排序也不固定,因为它们来自不同的map任务且这些map任务在不同轮次中完成时间各不相同。一般来说,大多数MapReduce程序会避免让reduce函数依赖于值的排序。但是,有时也需要通过特定的方法对键进行排序和分组等以实现对值的排序。
  • (4)二次排序:
    在自定义排序过程中,如果compareTo中的判断条件为两个即为二次排序。
3.3.4.3 自定义排序WritableComparable
  • (1)原理分析
    bean对象实现WritableComparable接口重写compareTo方法,就可以实现排序
  • (2)案例实操见下面两节:

3.3.5 WritableComparable排序案例实操(全排序)

  • 1.需求
    根据案例2.3产生的结果再次对总流量进行排序。
  • 2.需求分析
    在这里插入图片描述
  • 3.代码实现
    (1)FlowBean对象在在需求1基础上增加了比较功能
package com.lyj.writablecomparable;


import org.apache.hadoop.io.WritableComparable;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

/**
 * @author liuyongjun
 * @date 2020-07-02-14:12
 */
// 1 实现writable接口
public class FlowBean implements WritableComparable<FlowBean> {
    private long upFlow;
    private long downFlow;
    private long sumFlow;
    //2  反序列化时,需要反射调用空参构造函数,所以必须有空参构造函数
    public FlowBean(){

    }
    //随便写个方法
    public void set(long upFlow,long downFlow){
        this.upFlow = upFlow;
        this.downFlow = downFlow;
        this.sumFlow = upFlow + downFlow;

    }

    /**
     * TODO  3 、 写序列化方法
     * @param dataOutput  框架给我们提供的数据出口
     * @author liuyongjun
     * @date 2020/7/2 0002
     **/
    @Override
    public void write(DataOutput dataOutput) throws IOException {
        //通过write方法将数据写给MapReduce框架,这就是hadoop的序列化,
        // 序列化:内存中的对象,转换成字节序列
        dataOutput.writeLong(upFlow);
        dataOutput.writeLong(downFlow);
        dataOutput.writeLong(sumFlow);

    }

    /**
     * TODO 4、反序列化方法
     *      5、反序列化方法读顺序必须和写序列化方法的写顺序必须一致
     * @param dataInput 框架提供的数据来源
     * @author liuyongjun
     * @date 2020/7/2 0002
     **/
    @Override
    public void readFields(DataInput dataInput) throws IOException {
        //反序列化就是将收到字节序列(或其他数据传输协议)或者是硬盘的持久化数据,转换成内存中的对象
        //就是给对象赋值
        upFlow = dataInput.readLong();
        downFlow = dataInput.readLong();
        sumFlow = dataInput.readLong();
    }
    // 6 编写toString方法,方便后续打印到文本
    @Override
    public String toString() {
        return upFlow + "\t" + downFlow + "\t" + sumFlow ;
    }
    public long getUpFlow() {
        return upFlow;
    }

    public void setUpFlow(long upFlow) {
        this.upFlow = upFlow;
    }

    public long getDownFlow() {
        return downFlow;
    }

    public void setDownFlow(long downFlow) {
        this.downFlow = downFlow;
    }

    public long getSumFlow() {
        return sumFlow;
    }

    public void setSumFlow(long sumFlow) {
        this.sumFlow = sumFlow;
    }


    @Override
    public int compareTo(FlowBean o) {
        return Long.compare(o.sumFlow,this.sumFlow);
    }
    /*或者这样
    @Override
	public int compareTo(FlowBean o) {
		
		int result;
		
		// 按照总流量大小,倒序排列
		if (sumFlow > bean.getSumFlow()) {
			result = -1;
		}else if (sumFlow < bean.getSumFlow()) {
			result = 1;
		}else {
			result = 0;
		}

		return result;
	}
    */
}

(2)编写Mapper类

package com.lyj.writablecomparable;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;

/**
 * @author liuyongjun
 * @date 2020-07-06-1:12
 */
public class SortMapper extends Mapper<LongWritable, Text,FlowBean,Text> {
    private FlowBean flow = new FlowBean();
    private Text phone = new Text();

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String[] fields = value.toString().split("\t");
        phone.set(fields[0]);
        flow.setUpFlow(Long.parseLong(fields[1]));
        flow.setDownFlow(Long.parseLong(fields[2]));
        flow.setSumFlow(Long.parseLong(fields[3]));
        context.write(flow,phone);
    }
}

(3)编写Reducer类,这里reducer就是起到合并输入转换输出类型的作用

package com.lyj.writablecomparable;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;


import java.io.IOException;

/**
 * @author liuyongjun
 * @date 2020-07-06-1:13
 */
public class SortReducer extends Reducer<FlowBean, Text,Text,FlowBean> {
    @Override
    protected void reduce(FlowBean key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
        for (Text value : values) {
            context.write(value,key);
        }
    }
}

(4)编写Driver类

package com.lyj.writablecomparable;


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;

/**
 * @author liuyongjun
 * @date 2020-07-06-1:14
 */
public class SortDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Job job = Job.getInstance(new Configuration());

        job.setJarByClass(SortDriver.class);
        job.setMapperClass(SortMapper.class);
        job.setReducerClass(SortReducer.class);


        job.setMapOutputKeyClass(FlowBean.class);
        job.setMapOutputValueClass(Text.class);

        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(FlowBean.class);


        //例2.3的输出为输入
        FileInputFormat.setInputPaths(job,new Path("d:\\out"));
        FileOutputFormat.setOutputPath(job,new Path("d:\\output2"));

        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);


    }
}


3.3.6 WritableComparable排序案例实操(区内排序)

  • 1.需求
    要求每个省份手机号输出的文件中按照总流量内部排序。
  • 2.需求分析
    基于前一个需求,增加自定义分区类,分区按照省份手机号设置。
    在这里插入图片描述
  • 3.案例实操
    (1)增加自定义分区类
package com.lyj.writablecomparable2;

import com.lyj.writablecomparable.FlowBean;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

/**
 * @author liuyongjun
 * @date 2020-07-06-1:54
 */
public class Mypartitioner2 extends Partitioner<FlowBean, Text> {
    @Override
    public int getPartition(FlowBean flowBean, Text text, int numPartitions) {
        String phone = text.toString();

        switch(phone.substring(0,3)){
            case "136":
                return 0;
            case "137":
                return 1;
            case "138":
                return 2;
            case "139":
                return 3;
            default:
                return 4;
        }
    }
}

(2)在驱动类中添加分区类

// 加载自定义分区类
        job.setPartitionerClass(Mypartitioner2.class);

        // 设置Reducetask个数
        job.setNumReduceTasks(5);

3.3.7 Combiner合并

  • 1)combiner是MR程序中Mapper和Reducer之外的一种组件
  • 2)combiner组件的父类就是Reducer
  • 3)combiner和reducer的区别在于运行的位置:
    Combiner是在每一个maptask所在的节点运行()
    Reducer是接收全局所有Mapper的输出结果;
  • 4)combiner的意义就是对每一个maptask的输出进行局部汇总,以减小网络传输量(减少io资源占用)
  • 5)combiner能够应用的前提是不能影响最终的业务逻辑(就是不能影响最终结果),而且,combiner的输出kv应该跟reducer的输入kv类型要对应起来
  • 6)自定义Combiner实现步骤:
    (1)自定义一个combiner继承Reducer,重写reduce方法
    (2)在job驱动类中设置:

3.3.8 Combiner合并案例实操

  • 1.需求
    统计过程中对每一个MapTask的输出进行局部汇总,以减小网络传输量即采用Combiner功能。
  • 2.需求分析
    在这里插入图片描述
  • 因为Combiner和reducer的功能一样,所以可直接用方案二。
    将WordcountReducer作为Combiner在WordcountDriver驱动类中指定
// 指定需要使用Combiner,以及用哪个类作为Combiner的逻辑
job.setCombinerClass(WordcountReducer.class);
  • 使用前:
    在这里插入图片描述
  • 使用后:
    在这里插入图片描述
    减小map阶段局部输出

3.3.9 GroupingComparator分组(辅助排序)

  • 对Reduce阶段的数据根据某一个或几个字段进行分组。
  • 分组排序步骤:
    (1)自定义类继承WritableComparator
    (2)重写compare()方法,具体java集合的两种排序方式.
    (3)创建一个构造将比较对象的类传给父类

3.3.10 GroupingComparator分组案例实操

在这里插入图片描述

  • 2.需求分析
    (1)利用“订单id和成交金额”作为key,可以将Map阶段读取到的所有订单数据按照id升序排序,如果id相同再按照金额降序排序,发送到Reduce。
    (2)在Reduce端利用groupingComparator将订单id相同的kv聚合成组,然后取第一个即是该订单中最贵商品,如图
    在这里插入图片描述
  • 3.代码实现
    (1)定义订单信息OrderBean类
package com.lyj.groupingcomparator;


import org.apache.hadoop.io.WritableComparable;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

/**
 * @author liuyongjun
 * @date 2020-07-06-10:23
 */
public class OrderBean implements WritableComparable<OrderBean> {
    private String orderId; // 订单id号
    private String productId;//商品id号
    private double price; // 价格

    public OrderBean() {
    }

    public OrderBean(String orderId, double price) {
        this.orderId = orderId;
        this.price = price;
    }

    public String getOrderId() {
        return orderId;
    }

    public void setOrderId(String orderId) {
        this.orderId = orderId;
    }

    public String getProductId() {
        return productId;
    }

    public void setProductId(String productId) {
        this.productId = productId;
    }

    public double getPrice() {
        return price;
    }

    public void setPrice(double price) {
        this.price = price;
    }

    @Override
    public String toString() {
        return orderId + "\t" + productId+ "\t" + price;
    }
    // 二次排序
    @Override
    public int compareTo(OrderBean o) {
        int compare  = this.orderId.compareTo(o.orderId);
        if(compare == 0){
            return Double.compare(o.price,this.price);
        }else{
            return compare;
        }

    }

    @Override
    public void write(DataOutput out) throws IOException {
        out.writeUTF(orderId);
        out.writeUTF(productId);
        out.writeDouble(price);

    }

    @Override
    public void readFields(DataInput in) throws IOException {
        this.orderId = in.readUTF();
        this.productId = in.readUTF();
        this.price = in.readDouble();
    }
}

(2)编写OrderSortMapper类

package com.lyj.groupingcomparator;

import org.apache.avro.Schema;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**
 * @author liuyongjun
 * @date 2020-07-06-10:54
 */
public class OrderSortMapper extends Mapper<LongWritable, Text,OrderBean, NullWritable> {

    private OrderBean orderBean = new OrderBean();
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String[] fields = value.toString().split("\t");
        orderBean.setOrderId(fields[0]);
        orderBean.setProductId(fields[1]);
        orderBean.setPrice(Double.parseDouble(fields[2]));
        context.write(orderBean,NullWritable.get());
    }
}

(3)编写OrderGroupingComparator类

package com.lyj.groupingcomparator;

import org.apache.hadoop.io.WritableComparable;
import org.apache.hadoop.io.WritableComparator;

/**
 * @author liuyongjun
 * @date 2020-07-06-10:57
 */
public class OrderGroupingComparator extends WritableComparator {
    protected OrderGroupingComparator() {
        super(OrderBean.class,true);
    }

    @Override
    public int compare(WritableComparable a, WritableComparable b) {

        OrderBean aBean = (OrderBean) a;
        OrderBean bBean = (OrderBean) b;

        return aBean.getOrderId().compareTo(bBean.getOrderId());

    }
}

(4)编写OrderSortReducer类

package com.lyj.groupingcomparator;

import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
 * @author liuyongjun
 * @date 2020-07-06-10:55
 */
public class OrderSortReducer extends Reducer <OrderBean, NullWritable, OrderBean, NullWritable>{
    @Override
    protected void reduce(OrderBean key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {
    	//输入reduce之前,对key相同的进行分组,这个是只写出每组的第一个,
        // 如果想输出每组前几或者全部,可进行循环输出
        context.write(key, NullWritable.get());
    }
}

(5)编写OrderSortDriver类

package com.lyj.groupingcomparator;


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

/**
 * @author liuyongjun
 * @date 2020-07-06-10:56
 */
public class OrderSortDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        Job job = Job.getInstance(new Configuration());

        job.setJarByClass(OrderSortDriver.class);

        job.setMapperClass(OrderSortMapper.class);
        job.setReducerClass(OrderSortReducer.class);


        job.setMapOutputKeyClass(OrderBean.class);
        job.setMapOutputValueClass(NullWritable.class);


        job.setOutputKeyClass(OrderBean.class);
        job.setOutputValueClass(NullWritable.class);

        // 8 设置reduce端的分组
        job.setGroupingComparatorClass(OrderGroupingComparator.class);

        FileInputFormat.setInputPaths(job,new Path("d:\\input"));
        FileOutputFormat.setOutputPath(job,new Path("d:\\output3"));

        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);

    }
}

3.4 MapTask工作机制

在这里插入图片描述

  • (1)Read阶段:MapTask通过用户编写的RecordReader,从输入InputSplit中解析出一个个key/value。
  • (2)Map阶段:该节点主要是将解析出的key/value交给用户编写map()函数处理,并产生一系列新的key/value。
  • (3)Collect收集阶段:在用户编写map()函数中,当数据处理完成后,一般会调用OutputCollector.collect()输出结果。在该函数内部,它会将生成的key/value分区(调用Partitioner),并写入一个环形内存缓冲区中。
  • (4)Spill阶段:即“溢写”,当环形缓冲区满后,MapReduce会将数据写到本地磁盘上,生成一个临时文件。需要注意的是,将数据写入本地磁盘之前,先要对数据进行一次本地排序,并在必要时对数据进行合并、压缩等操作。
    • 溢写阶段详情:
      • 步骤1:利用快速排序算法对缓存区内的数据进行排序,排序方式是,先按照分区编号Partition进行排序,然后按照key进行排序。这样,经过排序后,数据以分区为单位聚集在一起,且同一分区内所有数据按照key有序。
      • 步骤2:按照分区编号由小到大依次将每个分区中的数据写入任务工作目录下的临时文件output/spillN.out(N表示当前溢写次数)中。如果用户设置了Combiner,则写入文件之前,对每个分区中的数据进行一次聚集操作。
      • 步骤3:将分区数据的元信息写到内存索引数据结构SpillRecord中,其中每个分区的元信息包括在临时文件中的偏移量、压缩前数据大小和压缩后数据大小。如果当前内存索引大小超过1MB,则将内存索引写到文件output/spillN.out.index中。
  • (5)Combine阶段:当所有数据处理完成后,MapTask对所有临时文件进行一次合并,以确保最终只会生成一个数据文件。
  • 当所有数据处理完后,MapTask会将所有临时文件合并成一个大文件,并保存到文件output/file.out中,同时生成相应的索引文件output/file.out.index。
  • 在进行文件合并过程中,MapTask以分区为单位进行合并。对于某个分区,它将采用多轮递归合并的方式。每轮合并io.sort.factor(默认10)个文件,并将产生的文件重新加入待合并列表中,对文件排序后,重复以上过程,直到最终得到一个大文件。
  • 让每个MapTask最终只生成一个数据文件,可避免同时打开大量文件和同时读取大量小文件产生的随机读取带来的开销。

3.5 ReduceTask工作机制

  • 1.ReduceTask工作机制
    在这里插入图片描述
    • (1)Copy阶段:ReduceTask从各个MapTask上远程拷贝一片数据,并针对某一片数据,如果其大小超过一定阈值,则写到磁盘上,否则直接放到内存中。
    • (2)Merge阶段:在远程拷贝数据的同时,ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并,以防止内存使用过多或磁盘上文件过多。
    • (3)Sort阶段:按照MapReduce语义,用户编写reduce()函数输入数据是按key进行聚集的一组数据。为了将key相同的数据聚在一起,Hadoop采用了基于排序的策略。由于各个MapTask已经实现对自己的处理结果进行了局部排序,因此,ReduceTask只需对所有数据进行一次归并排序即可。
    • (4)Reduce阶段:reduce()函数将计算结果写到HDFS上。
  • 2.设置ReduceTask并行度(个数)
    • ReduceTask的并行度同样影响整个Job的执行并发度和执行效率,但与MapTask的并发数由切片数决定不同,ReduceTask数量的决定是可以直接手动设置:默认值是1,可手动设置,例如:job.setNumReduceTasks(4);//设置为4个
  • 注意
    (1)reducetask=0 ,表示没有reduce阶段,输出文件个数和map个数一致。
    (2)reducetask默认值就是1,所以输出文件个数为一个。
    (3)如果数据分布不均匀,就有可能在reduce阶段产生数据倾斜
    (4)reducetask数量并不是任意设置,还要考虑业务逻辑需求,有些情况下,需要计算全局汇总结果,就只能有1个reducetask。
    (5)具体多少个reducetask,需要根据集群性能而定。
    (6)如果分区数不是1,但是reducetask为1,是否执行分区过程。答案是:不执行分区过程。因为在maptask的源码中,执行分区的前提是先判断reduceNum个数是否大于1。不大于1肯定不执行。

3.6 OutputFormat数据输出

3.6.1 OutputFormat接口实现类

  • OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了 OutputFormat接口。下面我们介绍几种常见的OutputFormat实现类。
  • 1)文本输出TextOutputFormat
    默认的输出格式是TextOutputFormat,它把每条记录写为文本行。它的键和值可以是任意类型,因为TextOutputFormat调用toString()方法把它们转换为字符串。
  • 2)SequenceFileOutputFormat
    SequenceFileOutputFormat将它的输出写为一个顺序文件。如果输出需要作为后续 MapReduce任务的输入,这便是一种好的输出格式,因为它的格式紧凑,很容易被压缩。
  • 3)自定义OutputFormat
    根据用户需求,自定义实现输出。

3.6.2 自定义OutputFormat

  • 为了实现控制最终文件的输出路径,可以自定义OutputFormat。
    例如:要在一个mapreduce程序中根据数据的不同输出两类结果到不同目录,这类灵活的输出需求可以通过自定义outputformat来实现。
  • 自定义OutputFormat步骤
    (1)自定义一个类继承FileOutputFormat。
    (2)改写recordwriter,具体改写输出数据的方法write()。

3.6.3 自定义OutputFormat案例实操

  • 1.需求
    过滤输入的log日志,包含atguigu的网站输出到d:/atguigu.log,不包含atguigu的网站输出到d:/other.log。
  • 2.需求分析
    在这里插入图片描述
  • 3.程序详解
    (1)自定义一个OutputFormat类
package com.lyj.outputformat;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

/**
 * @author liuyongjun
 * @date 2020-07-06-20:54
 */
public class FilterOutputFormat extends FileOutputFormat<LongWritable, Text> {
    @Override
    public RecordWriter<LongWritable, Text> getRecordWriter(TaskAttemptContext job) throws IOException, InterruptedException {
        // 创建一个RecordWriter
        FilterRecordWriter filterRecordWriter = new FilterRecordWriter();
        filterRecordWriter.initialize(job);
        return filterRecordWriter;
    }
}

(2)编写RecordWriter类

package com.lyj.outputformat;

import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;

import java.io.IOException;


/**
 * @author liuyongjun
 * @date 2020-07-06-20:57
 */
public class FilterRecordWriter extends RecordWriter<LongWritable, Text> {


    private FSDataOutputStream atguigu;
    private FSDataOutputStream other;

    //自定义初始化方法
    public void initialize(TaskAttemptContext job) {
        FileSystem fs;
        try {
            // 1 获取文件系统
            fs = FileSystem.get(job.getConfiguration());
            // 2 创建输出文件路径
            Path atguiguPath = new Path("d:/output/atguigu.log");
            Path otherPath = new Path("d:/output/other.log");

            // 3 创建输出流
            atguigu = fs.create(atguiguPath);
            other = fs.create(otherPath);
        } catch (IOException e) {
            e.printStackTrace();
        }


    }
    /**
     * TODO 将kv写出,每对kv调用一次
     * @param key
     * @param value
     * @author liuyongjun
     * @date 2020/7/6 0006
     **/
    @Override
    public void write(LongWritable key, Text value) {
        try {
            // 判断是否包含“atguigu”输出到不同文件
            String out = value.toString() + "\n";
            if(out.contains("atguigu")){
             atguigu.write(out.getBytes());
            }else{
                other.write(out.getBytes());
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
    //关闭资源
    @Override
    public void close(TaskAttemptContext context) throws IOException, InterruptedException {
        IOUtils.closeStream(atguigu);
        IOUtils.closeStream(other);
    }
}

(3)编写FilterDriver类

package com.lyj.outputformat;


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;

import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;


import java.io.IOException;

/**
 * @author liuyongjun
 * @date 2020-07-06-21:30
 */
public class FilterDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Job job = Job.getInstance(new Configuration());
        job.setJarByClass(FilterDriver.class);

        //map、reduce输入输出等都是默认的

        job.setOutputFormatClass(FilterOutputFormat.class);
        FileInputFormat.setInputPaths(job,new Path("d:\\input"));
        FileOutputFormat.setOutputPath(job,new Path("d:\\output"));

        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);

    }
}

3.7 Join多种应用

3.7.1 Reduce Join

  • 1)原理:
    • Map端的主要工作:为来自不同表(文件)的key/value对打标签以区别不同来源的记录。然后用连接字段作为key,其余部分和新加的标志作为value,最后进行输出。
    • reduce端的主要工作:在reduce端以连接字段作为key的分组已经完成,我们只需要在每一个分组当中将那些来源于不同文件的记录(在map阶段已经打标志)分开,最后进行合并就ok了
  • 2)该方法的缺点
    这里主要分析一下reduce join的一些不足。之所以会存在reduce join这种方式,是因为整体数据被分割了,每个maptask只处理一部分数据而不能够获取到所有需要的join字段,因此我们可以充分利用mapreduce框架的特性,让他按照join key进行分区,将所有join key相同的记录集中起来进行处理,所以reduce join这种方式就出现了。
    这种方式的缺点很明显就是会造成map和reduce端也就是shuffle阶段出现大量的数据传输,效率很低。

3.7.2 Reduce Join案例实操

  • 需求分析
    • 通过将关联条件作为Map输出的key,将两表满足Join条件的数据并携带数据所来源的文件信息,发往同一个ReduceTask,在Reduce中进行数据的串联,如图
      在这里插入图片描述
    • 注意:相同pid的数据一定要同一组进入reduce,因为是按相同 pid进行合并,所以要有一个自定义分组(分组规则是让相同pid在同一组)
  • 代码实现
    1)创建商品和订合并后的Bean类
package com.lyj.bean;

import org.apache.hadoop.io.WritableComparable;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

/**
 * @author liuyongjun
 * @date 2020-07-07-8:31
 */
public class OrderBean implements WritableComparable<OrderBean> {
    private String id;
    private String pid;
    private int amount;
    private String pname;

    @Override
    public String toString() {
        return id + "\t" + pname + "\t" + amount;
    }

    public String getId() {
        return id;
    }

    public void setId(String id) {
        this.id = id;
    }

    public String getPid() {
        return pid;
    }

    public void setPid(String pid) {
        this.pid = pid;
    }

    public int getAmount() {
        return amount;
    }

    public void setAmount(int amount) {
        this.amount = amount;
    }

    public String getPname() {
        return pname;
    }

    public void setPname(String pname) {
        this.pname = pname;
    }

    @Override
    public int compareTo(OrderBean o) {
        int compare = this.pid.compareTo(o.pid);
        if(compare == 0){
            return o.pname.compareTo(this.pname);
        }else{
            return compare;
        }
    }



    @Override
    public void write(DataOutput out) throws IOException {
        out.writeUTF(id);
        out.writeUTF(pid);
        out.writeInt(amount);
        out.writeUTF(pname);

    }

    @Override
    public void readFields(DataInput in) throws IOException {
        this.id = in.readUTF();
        this.pid = in.readUTF();
        this.amount = in.readInt();
        this.pname = in.readUTF();

    }
}

2)编写Mapper类

package com.lyj.reducejoin;

import com.lyj.bean.OrderBean;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;

import java.io.File;
import java.io.IOException;

/**
 * @author liuyongjun
 * @date 2020-07-07-8:30
 */
public class RJMapper extends Mapper<LongWritable, Text, OrderBean, NullWritable> {
    private OrderBean orderBean = new OrderBean();
    private String filename;
    @Override
    protected void setup(Context context) throws IOException, InterruptedException {
        //获取文件名(执行map方法之前会执行这个)
        FileSplit fs = (FileSplit) context.getInputSplit();
        filename = fs.getPath().getName();
    }

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String[] fields = value.toString().split("\t");
        if(filename.equals("order.txt")){
            //封装bean对象
            orderBean.setId(fields[0]);
            orderBean.setPid(fields[1]);
            orderBean.setAmount(Integer.parseInt(fields[2]));
            orderBean.setPname("");//虽然此表没有pname,但是一定要设个空,因为序列化要用到,
                                    // 并且orderbean反复使用,此变量不能没有
        }else{
            //封装bean对象
            orderBean.setPid(fields[0]);
            orderBean.setPname(fields[1]);
            orderBean.setId("");
            orderBean.setAmount(0);
        }
        context.write(orderBean,NullWritable.get());
    }
}

3)编写Reduce类

package com.lyj.reducejoin;

import com.lyj.bean.OrderBean;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;
import java.util.Iterator;

/**
 * @author liuyongjun
 * @date 2020-07-07-8:31
 */
public class RJReduce extends Reducer<OrderBean, NullWritable,OrderBean, NullWritable> {
    @Override
    protected void reduce(OrderBean key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {
        //拿到迭代器
        Iterator<NullWritable> iterator = values.iterator();
        //数据指针下移,获取第一个orderbean
        iterator.next();
        //从第一个orderbean中取出品牌名称
        String pname = key.getPname();
        //遍历剩下的orderbean,设置品牌名称并写出
        while(iterator.hasNext()){
            iterator.next();
            key.setPname(pname);
            context.write(key,NullWritable.get());
        }
    }
}

4)编写OrderGroupingComparator类

package com.lyj.reducejoin;


import com.lyj.bean.OrderBean;
import org.apache.hadoop.io.WritableComparable;
import org.apache.hadoop.io.WritableComparator;

/**
 * @author liuyongjun
 * @date 2020-07-07-9:11
 */
public class RJComparator extends WritableComparator {
    protected  RJComparator(){
        super(OrderBean.class,true);
    }

    @Override
    public int compare(WritableComparable a, WritableComparable b) {
        OrderBean oa = (OrderBean) a;
        OrderBean ob = (OrderBean) b;
        return oa.getPid().compareTo(ob.getPid());
    }
}

5)编写Driver类

package com.lyj.reducejoin;

import com.lyj.bean.OrderBean;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

/**
 * @author liuyongjun
 * @date 2020-07-07-8:30
 */
public class RJDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Job job = Job.getInstance(new Configuration());

        job.setJarByClass(RJDriver.class);

        job.setMapperClass(RJMapper.class);
        job.setReducerClass(RJReduce.class);

        job.setMapOutputKeyClass(OrderBean.class);
        job.setMapOutputValueClass(NullWritable.class);

        job.setOutputKeyClass(OrderBean.class);
        job.setOutputValueClass(NullWritable.class);

        job.setGroupingComparatorClass(RJComparator.class);

        FileInputFormat.setInputPaths(job,new Path("d:/input"));
        FileOutputFormat.setOutputPath(job,new Path("d:/output"));

        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);
    }
}

3.7.3 Map Join

  • 1)使用场景:适用于一张表十分小、一张表很大的场景。
    • 小文件用作缓存数据文件,hadoop控制在15M以下算小文件,hive控制在25 M以下算小文件
  • 2)使用方法:
    在提交作业的时候先将小表文件放到该作业的DistributedCache中,然后从DistributeCache中取出该小表进行join (比如放到Hash Map等等容器中)。然后扫描大表,看大表中的每条记录的join key/value值是否能够在内存中找到相同join key的记录,如果有则直接输出结果。
  • 注意,reduce join ,如果是多张表的操作都是在reduce阶段完成,reduce端的处理压力太大,map节点的运算负载则很低,资源利用率不高,且在reduce阶段极易产生数据倾斜。
  • 于是,引出map join

3.7.4 Map Join案例实操

  • 需求分析:将商品信息表中数据根据商品pid合并到订单数据表中
    MapJoin适用于关联表中有小表的情形
    在这里插入图片描述
  • 实现代码
    (1)先在驱动模块中添加缓存文件
package com.lyj.mapjoin;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import javax.xml.soap.Text;
import java.io.IOException;
import java.net.URI;

/**
 * @author liuyongjun
 * @date 2020-07-07-10:25
 */
public class MJDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Job job = Job.getInstance(new Configuration());

        job.setJarByClass(MJDriver.class);

        job.setMapperClass(MJMapper.class);
        job.setNumReduceTasks(0);

        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(NullWritable.class);

        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(NullWritable.class);

        //设置小表为缓存数据
        job.addCacheFile(URI.create("file:///d:/input/pd.txt"));

        FileInputFormat.setInputPaths(job, new Path("d:/input/order.txt"));
        FileOutputFormat.setOutputPath(job, new Path("d:/output"));

        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);
    }

}

(2)在Mapper类中读取缓存的文件数据

package com.lyj.mapjoin;

import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.*;
import java.lang.reflect.Field;
import java.net.URI;
import java.security.DigestException;
import java.util.HashMap;
import java.util.Map;

/**
 * @author liuyongjun
 * @date 2020-07-07-10:25
 */
public class MJMapper extends Mapper<LongWritable, Text,Text, NullWritable> {
        private Map<String,String> pMap = new HashMap<>();
        private Text k = new Text();
    @Override
    protected void setup(Context context) throws IOException, InterruptedException {
        // 1 获取缓存的文件
        URI[] cacheFiles = context.getCacheFiles();//是数组说明缓存文件可以多个
        //我们只有一个,所以用cacheFiles[0]即可
        String path = cacheFiles[0].getPath().toString();
        BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(new FileInputStream(path),"UTF-8"));
        String line;
        while(StringUtils.isNotEmpty( line = bufferedReader.readLine())){
            String[] fields = line.split("\t");
            pMap.put(fields[0], fields[1]);
        }
        //关流
        bufferedReader.close();
    }

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String[] fields = value.toString().split("\t");
        String pname = pMap.get(fields[1]);
        if(pname == null){
            pname = "NULL";
        }
        k.set(fields[0] + "\t" + pname + "\t" + fields[2]);

        context.write(k,NullWritable.get());

    }
}

(3)orderbean类还是延续上一个案例的

3.8 计数器应用

  • Hadoop为每个作业维护若干内置计数器,以描述多项指标。例如,某些计数器记录已处理的字节数和记录数,使用户可监控已处理的输入数据量和已产生的输出数据量。
  • 1)API
    (1)采用枚举的方式统计计数
    (2)采用计数器组、计数器名称的方式统计
    (3)计数结果在程序运行后的控制台上查看。
  • 2)计数器案例实操可见数据清洗(下面)案例

3.9 数据清洗(ETL)

  • 在运行核心业务MapReduce程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序,不需要运行Reduce程序。

3.9.1 数据清洗案例实操-简单解析版

注意:实际开发中,不会用MapReduce编程进行数据清洗,会有指定的工具,现在此案例是简单演示一下,了解即可

  • 1.需求
    去除日志中字段长度小于等于11的日志
  • 2.需求分析
    需要在Map阶段对输入的数据根据规则进行过滤清洗
  • 3.实现代码
    (1)编写LogMapper类
package com.lyj.etl;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;


/**
 * @author liuyongjun
 * @date 2020-07-07-14:25
 */
public class ETLMapper extends Mapper<LongWritable, Text,Text, NullWritable> {
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String[] fields = value.toString().split("");
        if(fields.length > 11){
            context.write(value,NullWritable.get());
            context.getCounter("ETL", "true").increment(1);
        }else{
            context.getCounter("ETL", "false").increment(1);
        }
    }
}

(2)编写LogDriver类

package com.lyj.etl;


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import javax.xml.soap.Text;
import java.io.IOException;

/**
 * @author liuyongjun
 * @date 2020-07-07-14:26
 */
public class ETLDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Job job = Job.getInstance(new Configuration());
        job.setJarByClass(ETLDriver.class);

        job.setMapperClass(ETLMapper.class);

        job.setNumReduceTasks(0);

        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(NullWritable.class);

        FileInputFormat.setInputPaths(job,new Path("d:/input"));
        FileOutputFormat.setOutputPath(job,new Path("d:/output"));

        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0: 1);
    }
}

3.10 MapReduce开发总结

  • 在编写mapreduce程序时,需要考虑的几个方面:

  • 1)输入数据接口:InputFormat

    • 默认使用的实现类是:TextInputFormat

    • TextInputFormat的功能逻辑是:一次读一行文本,然后将该行的起始偏移量作为key,行内容作为value返回

    • KeyValueTextInputFormat每一行均为一条记录,被分隔符分割为key、value。默认分隔符为tab(\t)

    • NlineInputFormat按照指定的行数N来划分切片。

    • CombineTextInputFormat可以把多个小文件合并成一个切片处理,提高处理效率。

    • 用户还可以自定义InputFormat。

  • 2)逻辑处理接口:Mapper
    用户根据业务需求实现其中三个方法: setup() map() cleanup ()

  • 3)Partitioner分区

    • 有默认实现 HashPartitioner,逻辑是根据key的哈希值和numReduces来返回一个分区号;key.hashCode()&Integer.MAXVALUE % numReduces
    • 如果业务上有特别的需求,可以自定义分区。
  • 4)Comparable排序

    • 当我们用自定义的对象作为key来输出时,就必须要实现WritableComparable接口,重写其中的compareTo()方法。
    • 部分排序:对最终输出的没一个文件进行内部排序。
    • 全排序:对所有数据进行排序,通常只有一个Reduce。
    • 二次排序:排序的条件有两个。
  • 5)Combiner合并
    Combiner合并可以提高程序执行效率,减少io传输。但是使用时必须不能影响原有的业务处理结果。

  • 6)reduce端分组:Groupingcomparator

    • reduceTask拿到输入数据(一个partition的所有数据)后,首先需要对数据进行分组,其分组的默认原则是key相同,然后对每一组kv数据调用一次reduce()方法,并且将这一组kv中的第一个kv的key作为参数传给reduce的key,将这一组数据的value的迭代器传给reduce()的values参数。
    • 利用上述这个机制,我们可以实现一个高效的分组取最大值的逻辑。
    • 自定义一个bean对象用来封装我们的数据,然后改写其compareTo方法产生倒序排序的效果。然后自定义一个Groupingcomparator,将bean对象的分组逻辑改成按照我们的业务分组id来分组(比如订单号)。这样,我们要取的最大值就是reduce()方法中传进来key。
  • 7)逻辑处理接口:Reducer
    用户根据业务需求实现其中三个方法: reduce() setup() cleanup ()

  • 8)输出数据接口:OutputFormat

    • 默认实现类是TextOutputFormat,功能逻辑是:将每一个KV对向目标文本文件中输出为一行。
    • 用户还可以自定义OutputFormat。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值