hadoop（四）MapReduce入门及序列化实操

最新推荐文章于 2020-12-02 22:34:40 发布

复姓独孤

最新推荐文章于 2020-12-02 22:34:40 发布

阅读量205

点赞数

分类专栏： Bigdata # Hadoop 文章标签： hadoop

本文链接：https://blog.csdn.net/weixin_45077780/article/details/107076233

版权

Bigdata 同时被 2 个专栏收录

24 篇文章 2 订阅

订阅专栏

Hadoop

9 篇文章 1 订阅

订阅专栏

hadoop系列笔记
hadoop（一）入门、hadoop架构、集群环境搭建.
hadoop（二）HDFS概述、shell操作、客户端操作（各种API操作）以及hdfs读写流程.
hadoop（三）hdfs的NameNode和DataNode工作机制.
hadoop（四）MapReduce入门及序列化实操.
hadoop（五）MapReduce框架原理及工作机制.
hadoop（六）hadoop数据压缩、yarn架构及工作原理、hadoop企业优化.

第一章 MapReduce概述

1.1 MapReduce定义

Mapreduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架；
Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上。

1.2 MapReduce优缺点

1.2.1 优点

1）MapReduce 易于编程。它简单的实现一些接口，就可以完成一个分布式程序，这个分布式程序可以分布到大量廉价的 PC 机器运行。也就是说你写一个分布式程序，跟写一个简单的串行程序是一模一样的。就是因为这个特点使得 MapReduce 编程变得非常流行。
2）良好的扩展性。当你的计算资源不能得到满足的时候，你可以通过简单的增加机器来扩展它的计算能力。
3）高容错性。MapReduce 设计的初衷就是使程序能够部署在廉价的 PC 机器上，这就要求它具有很高的容错性。比如其中一台机器挂了，它可以把上面的计算任务转移到另外一个节点上面上运行，不至于这个任务运行失败，而且这个过程不需要人工参与，而完全是由 Hadoop 内部完成的。
4）适合 PB 级以上海量数据的离线处理。这里加红字体离线处理，说明它适合离线处理而不适合在线处理。比如像毫秒级别的返回一个结果，MapReduce 很难做到。

1.2.2 缺点

MapReduce不擅长做实时计算、流式计算、DAG（有向图）计算。说白了就是计算的慢
1）实时计算。MapReduce 无法像 Mysql 一样，在毫秒或者秒级内返回结果。
2）流式计算。流式计算的输入数据时动态的，而 MapReduce 的输入数据集是静态的，不能动态变化。这是因为 MapReduce 自身的设计特点决定了数据源必须是静态的。
3）DAG（有向图）计算。多个应用程序存在依赖关系，后一个应用程序的输入为前一个的输出。在这种情况下，MapReduce 并不是不能做，而是使用后，每个MapReduce 作业的输出结果都会写入到磁盘，会造成大量的磁盘IO，导致性能非常的低下。

1.3 MapReduce核心思想

在这里插入图片描述

map做映射，reduce做合并

1.4 MapReduce进程

一个完整的mapreduce程序在分布式运行时有三类实例进程：
1）MrAppMaster：负责整个程序的过程调度及状态协调。
2）MapTask：负责map阶段的整个数据处理流程。
3）ReduceTask：负责reduce阶段的整个数据处理流程。

1.5 官方WordCount源码

采用反编译工具（jd-gui）反编译源码，发现WordCount案例有Map类、Reduce类和驱动类。且数据的类型是Hadoop自身封装的序列化类型。

1.6 常用数据序列化类型

在这里插入图片描述

1.7 MapReduce编程规范（八股文）

用户编写的程序分成三个部分：Mapper，Reducer，Driver(提交运行mr程序的客户端)
1）Mapper阶段
（1）用户自定义的Mapper要继承自己的父类
（2）Mapper的输入数据是KV对的形式（KV的类型可自定义）
（3）Mapper中的业务逻辑写在map()方法中
（4）Mapper的输出数据是KV对的形式（KV的类型可自定义）
（5）map()方法（maptask进程）对每一个<K,V>调用一次
2）Reducer阶段
（1）用户自定义的Reducer要继承自己的父类
（2）Reducer的输入数据类型对应Mapper的输出数据类型，也是KV
（3）Reducer的业务逻辑写在reduce()方法中
（4）Reducetask进程对每一组相同k的<k,v>组调用一次reduce()方法
3）Driver阶段
整个程序需要一个Drvier来进行提交，提交的是一个描述了各种必要信息的job对象

1.8WordCount案例实操

1．需求
在给定的文本文件中统计输出每一个单词出现的总次数
（1）输入数据
hello.txt
内容为：

atguigu atguigu
ss ss
cls cls
jiao
banzhang
xue
hadoop

（2）期望输出数据
atguigu 2
banzhang 1
cls 2
hadoop 1
jiao 1
ss 2
xue 1

2．需求分析
按照MapReduce编程规范，分别编写Mapper，Reducer，Driver
3．环境准备
（1）创建maven工程
（2）在pom.xml文件中添加如下依赖

<dependencies>
		<dependency>
			<groupId>junit</groupId>
			<artifactId>junit</artifactId>
			<version>RELEASE</version>
		</dependency>
		<dependency>
			<groupId>org.apache.logging.log4j</groupId>
			<artifactId>log4j-core</artifactId>
			<version>2.8.2</version>
		</dependency>
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-common</artifactId>
			<version>2.7.2</version>
		</dependency>
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-client</artifactId>
			<version>2.7.2</version>
		</dependency>
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-hdfs</artifactId>
			<version>2.7.2</version>
		</dependency>
</dependencies>

（3）在项目的src/main/resources目录下，新建一个文件，命名为“log4j.properties”，在文件中填入。

log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spring.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

4．编写程序
（1）编写Mapper类

package com.lyj.wordcount;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**
 * @author liuyongjun
 * @date 2020-07-02-9:25
 */
/*longwritable :这一行数据的行首在文件中的偏移量（就是距离文件最开始差多少）
第一个Text：这是输入内容，注意输入的数据也是KV键值对的形式
第二个Text：输出key
IntWritable：输出的value
 */
public class WcMapper extends Mapper<LongWritable,Text,Text, IntWritable> {
 	Text k = new Text();
    IntWritable v = new IntWritable(1);
    //context是包含输入输出四个泛型，贯穿始终
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        // 1 获取一行
        String line = value.toString();
        // 2 按照空格切分数据
        String[] words = line.split(" ");
        // 3 遍历数组，把单词变成（Word，1）的形式交给框架
        for (String word : words) {
            k.set(word);
            context.write(k, v);
        }
    }
}

（2）编写Reducer类

package com.lyj.wordcount;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;

/**
 * @author liuyongjun
 * @date 2020-07-02-9:25
 */
public class WcReducer extends Reducer<Text, IntWritable, Text,IntWritable> {
    int sum;
    IntWritable v = new IntWritable();
    @Override
    //Iterable<IntWritable> values:将相同的key放在一组
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        // 1 累加求和,将key（Word）一样的累加
        sum =0;
        for (IntWritable count : values) {
            sum += count.get();
        }
        //2.输出
        v.set(sum);
        context.write(key,v);
    }
}

（3）编写Driver驱动类

package com.lyj.wordcount;

//注意导包

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;
//这个导比较长的那个，这个需要有lib目录，很重要很重要
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;


import java.io.IOException;

/**
 * @author liuyongjun
 * @date 2020-07-02-9:25
 */
public class WcDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        // 1 获取配置信息以及封装任务，或者说获取一个job实例
        Job job = Job.getInstance(new Configuration());

        // 2 设置jar加载路径
        job.setJarByClass(WcDriver.class);

        // 3 设置map和reduce类
        job.setMapperClass(WcMapper.class);
        job.setReducerClass(WcReducer.class);

        // 4 设置map输出类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        // 5 设置最终输出kv类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        // 6 设置输入和输出路径
        // 参数渗入，args[0])表示java程序的第一个参数 ，用参数的形式可以反复使用
        // args[1])表示java程序的第二个参数
        FileInputFormat.setInputPaths(job,new Path(args[0]));
        FileOutputFormat.setOutputPath(job,new Path(args[1]));

        // 7 提交
        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);
    }
}

5．本地测试
注意，参数还没输，怎么在idea中设置参数？

在这里设置

结果：
6．集群上测试（打包测试）

在这里插入图片描述

打完包之后，在target目录下出现一个jar包
将jar包拷贝在桌面，重命名一下（1.jar）
之后使用指令rz -E导入到集群
在Linux下，sz和rz命令可以对文件进行下载和上传；
在上传文件的时候，只使用rz命令，也是可以上传文件的，但是有时候会出现终端挂死在rz命令中的情况；
如果使用rz -e ，就不会出现此类问题，因为-e选项强制对rz的控制字符进行转义，就像C中表示真正的反斜杠 ‘/’，需要 '//'进行转义一样；
启动Hadoop集群
hadoop jar jar包名全类名输入输出
如：hadoop jar 1.jar com.lyj.wordcount.WcDriver /1.txt /output

第2章 Hadoop序列化

2.1序列化概述

2.1.1 为什么要序列化？

一般来说，“活的”对象只生存在内存里，关机断电就没有了。而且“活的”对象只能由本地的进程使用，不能被发送到网络上的另外一台计算机。然而序列化可以存储“活的”对象，可以将“活的”对象发送到远程计算机。

2.1.2 什么是序列化？

序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储（持久化）和网络传输。
反序列化就是将收到字节序列（或其他数据传输协议）或者是硬盘的持久化数据，转换成内存中的对象。

2.1.3 为什么不用Java的序列化？

Java的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的信息（各种校验信息，header，继承体系等），不便于在网络中高效传输。所以，hadoop自己开发了一套序列化机制（Writable）。
java序列化之后，产生了一些对大数据没必要的信息，占据了大量的IO资源，什么是IO资源呢？就是输入输出资源。

2.1.4 为什么序列化对Hadoop很重要？

因为Hadoop在集群之间进行通讯或者RPC调用的时候，需要序列化，而且要求序列化要快，且体积要小，占用带宽要小。所以必须理解Hadoop的序列化机制。
序列化和反序列化在分布式数据处理领域经常出现：进程通信和永久存储。然而Hadoop中各个节点的通信是通过远程调用（RPC）实现的，那么 RPC序列化要求具有以下特点：
1）紧凑：紧凑的格式能让我们能充分利用网络带宽，而带宽是数据中心最稀缺的资
2）快速：进程通信形成了分布式系统的骨架，所以需要尽量减少序列化和反序列化的性能开销，这是基本的；
3）可扩展：协议为了满足新的需求变化，所以控制客户端和服务器过程中，需要直接引进相应的协议，这些是新协议，原序列化方式能支持新的协议报文；
4）互操作：能支持不同语言写的客户端和服务端进行交互；

2.2自定义bean对象实现序列化接口（Writable）

在企业开发中往往常用的基本序列化类型不能满足所有需求，比如在Hadoop框架内部传递一个bean对象，那么该对象就需要实现序列化接口。
具体实现bean对象序列化步骤如下7步。
（1）必须实现Writable接口
（2）反序列化时，需要反射调用空参构造函数，所以必须有空参构造

（3）重写序列化方法

（4）重写反序列化方法

（5）注意反序列化的顺序和序列化的顺序完全一致.
（6）要想把结果显示在文件中，需要重写toString()，可用”\t”分开，方便后续用。
（7）如果需要将自定义的bean放在key中传输，则还需要实现Comparable接口，因为MapReduce框中的Shuffle过程要求对key必须能排序。

2.3.序列化案例实操

1.需求
统计每一个手机号耗费的总上行流量、下行流量、总流量
（1）输入数据

1	13736230513	192.196.100.1	www.alibaba.com	2481	24681	200
2	13846544121	192.196.100.2			264	0	200
3 	13956435636	192.196.100.3			132	1512	200
4 	13966251146	192.168.100.1			240	0	404
5 	18271575951	192.168.100.2	www.alibaba.com	1527	2106	200
6 	84188413	192.168.100.3	www.alibaba.com	4116	1432	200
7 	13590439668	192.168.100.4			1116	954	200
8 	15910133277	192.168.100.5	www.hao123.com	3156	2936	200
9 	13729199489	192.168.100.6			240	0	200
10 	13630577991	192.168.100.7	www.shouhu.com	6960	690	200
11 	15043685818	192.168.100.8	www.baidu.com	3659	3538	200
12 	15959002129	192.168.100.9	www.alibaba.com	1938	180	500
13 	13560439638	192.168.100.10			918	4938	200
14 	13470253144	192.168.100.11			180	180	200
15 	13682846555	192.168.100.12	www.qq.com	1938	2910	200
16 	13992314666	192.168.100.13	www.gaga.com	3008	3720	200
17 	13509468723	192.168.100.14	www.qinghua.com	7335	110349	404
18 	18390173782	192.168.100.15	www.sogou.com	9531	2412	200
19 	13975057813	192.168.100.16	www.baidu.com	11058	48243	200
20 	13768778790	192.168.100.17			120	120	200
21 	13568436656	192.168.100.18	www.alibaba.com	2481	24681	200
22 	13568436656	192.168.100.19			1116	954	200

（2）输入数据格式：
在这里插入图片描述
（3）期望输出数据格式：

2．需求分析
3．编写MapReduce程序
（1）编写流量统计的Bean对象

package com.lyj.flow;

import org.apache.hadoop.io.Writable;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

/**
 * @author liuyongjun
 * @date 2020-07-02-14:12
 */
// 1 实现writable接口
public class FlowBean implements Writable {
    private long upFlow;
    private long downFlow;
    private long sumFlow;
    //2  反序列化时，需要反射调用空参构造函数，所以必须有空参构造函数
    public FlowBean(){

    }
    //随便写个方法
    public void set(long upFlow,long downFlow){
        this.upFlow = upFlow;
        this.downFlow = downFlow;
        this.sumFlow = upFlow + downFlow;

    }

    /**
     * TODO  3 、 写序列化方法
     * @param dataOutput  框架给我们提供的数据出口
     * @author liuyongjun
     * @date 2020/7/2 0002
     **/
    @Override
    public void write(DataOutput dataOutput) throws IOException {
        //通过write方法将数据写给MapReduce框架，这就是hadoop的序列化，
        // 序列化：内存中的对象，转换成字节序列
        dataOutput.writeLong(upFlow);
        dataOutput.writeLong(downFlow);
        dataOutput.writeLong(sumFlow);

    }

    /**
     * TODO 4、反序列化方法
     *      5、反序列化方法读顺序必须和写序列化方法的写顺序必须一致
     * @param dataInput 框架提供的数据来源
     * @author liuyongjun
     * @date 2020/7/2 0002
     **/
    @Override
    public void readFields(DataInput dataInput) throws IOException {
        //反序列化就是将收到字节序列（或其他数据传输协议）或者是硬盘的持久化数据，转换成内存中的对象
        //就是给对象赋值
        upFlow = dataInput.readLong();
        downFlow = dataInput.readLong();
        sumFlow = dataInput.readLong();
    }
    // 6 编写toString方法，方便后续打印到文本
    @Override
    public String toString() {
        return upFlow + "\t" + downFlow + "\t" + sumFlow ;
    }
    public long getUpFlow() {
        return upFlow;
    }

    public void setUpFlow(long upFlow) {
        this.upFlow = upFlow;
    }

    public long getDownFlow() {
        return downFlow;
    }

    public void setDownFlow(long downFlow) {
        this.downFlow = downFlow;
    }

    public long getSumFlow() {
        return sumFlow;
    }

    public void setSumFlow(long sumFlow) {
        this.sumFlow = sumFlow;
    }


}

（2）编写Mapper类

package com.lyj.flow;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**
 * @author liuyongjun
 * @date 2020-07-02-14:12
 */
public class FlowMapper extends Mapper<LongWritable, Text,Text,FlowBean> {
    private Text phone = new Text();
    private FlowBean flow = new FlowBean();
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        // 1 获取一行
        String line = value.toString();

        // 2 切割字段
        String[] fields = line.split("\t");

        // 3 封装对象
        // 取出手机号码
        phone.set(fields[1]);
        // 取出上行流量和下行流量
        long upFlow = Long.parseLong(fields[fields.length - 3]);
        long downFlow = Long.parseLong(fields[fields.length - 2]);
        flow.set(upFlow,downFlow);
        // 4 写出
        context.write(phone,flow);
    }
}

（3）编写Reducer类

package com.lyj.flow;


import org.apache.hadoop.mapreduce.Reducer;
import sun.java2d.ScreenUpdateManager;

import javax.xml.soap.Text;
import java.io.IOException;

/**
 * @author liuyongjun
 * @date 2020-07-02-14:12
 */
public class FlowReducer extends Reducer<Text, FlowBean,Text,FlowBean> {

    private FlowBean sumFlow = new FlowBean();
    @Override
    protected void reduce(Text key, Iterable<FlowBean> values, Context context) throws IOException, InterruptedException {
        long sumUpFlow = 0;
        long sumDownFlow = 0;
        for (FlowBean value : values) {
            sumUpFlow += value.getUpFlow();
            sumDownFlow += value.getDownFlow();
        }
        sumFlow.set(sumUpFlow,sumDownFlow);
        context.write(key,sumFlow);


    }
}

（4）编写Driver驱动类

package com.lyj.flow;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

/**
 * @author liuyongjun
 * @date 2020-07-02-14:11
 */
public class FlowDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        // 1 获取配置信息，或者job对象实例
        Job job = Job.getInstance(new Configuration());

        // 2 指定本程序的jar包所在的本地路径
        job.setJarByClass(FlowDriver.class);

        // 3 指定本业务job要使用的mapper/Reducer业务类
        job.setMapperClass(FlowMapper.class);
        job.setReducerClass(FlowReducer.class);

        // 4 指定mapper输出数据的kv类型、
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(FlowBean.class);

        // 5 指定最终输出的数据的kv类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(FlowBean.class);

        // 6 指定job的输入原始文件所在目录
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        // 7 将job中配置的相关参数，以及job所用的java类所在的jar包， 提交给yarn去运行
        boolean result = job.waitForCompletion(true);
        System.exit(result ? 0 : 1);
    }
}