Hadoop

最新推荐文章于 2024-07-15 19:00:06 发布

归去来兮★

最新推荐文章于 2024-07-15 19:00:06 发布

阅读量247

点赞数

本文链接：https://blog.csdn.net/zhouhe_/article/details/127843616

版权

大数据专栏收录该内容

10 篇文章 0 订阅

订阅专栏

这里写目录标题

HDFS
MapReduce
Yarn

HDFS

配置文件

core-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
	 <!-- 指定 NameNode 的地址 -->
	 <property>
		 <name>fs.defaultFS</name>
		 <value>hdfs://hadoop102:8020</value>
	 </property>
	 <!-- 指定 hadoop 数据的存储目录 -->
	 <property>
		 <name>hadoop.tmp.dir</name>
		 <value>/opt/module/hadoop-3.1.3/data</value>
	 </property>
	 <!-- 配置 HDFS 网页登录使用的静态用户为 atguigu -->
	 <property>
		 <name>hadoop.http.staticuser.user</name>
		 <value>atguigu</value>
	 </property>
</configuration>

hdfs-site.xml

	<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
	<!-- nn web 端访问地址-->
	<property>
		 <name>dfs.namenode.http-address</name>
		 <value>hadoop102:9870</value>
	 </property>
	<!-- 2nn web 端访问地址-->
	 <property>
		 <name>dfs.namenode.secondary.http-address</name>
		 <value>hadoop104:9868</value>
	 </property>
</configuration>

yarn-site.xml

<configuration>
	 <!-- 指定 MR 走 shuffle -->
	 <property>
		 <name>yarn.nodemanager.aux-services</name>
		 <value>mapreduce_shuffle</value>
	 </property>
	 <!-- 指定 ResourceManager 的地址-->
	 <property>
		 <name>yarn.resourcemanager.hostname</name>
		 <value>hadoop103</value>
	 </property>
	 <!-- 环境变量的继承 -->
	 <property>
	 <name>yarn.nodemanager.env-whitelist</name>
	 
	<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CO
	NF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAP
	RED_HOME</value>
	 </property>


	<!-- 开启日志聚集功能 -->
	<property>
	 <name>yarn.log-aggregation-enable</name>
	 <value>true</value>
	</property>
	<!-- 设置日志聚集服务器地址 -->
	<property> 
	 <name>yarn.log.server.url</name> 
	 <value>http://hadoop102:19888/jobhistory/logs</value>
	</property>
	<!-- 设置日志保留时间为 7 天 -->
	<property>
	 <name>yarn.log-aggregation.retain-seconds</name>
	 <value>604800</value>
	</property>
</configuration>

mapred-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!-- 指定 MapReduce 程序运行在 Yarn 上 -->
 <property>
 <name>mapreduce.framework.name</name>
 <value>yarn</value>
 </property>
 <!-- 历史服务器端地址 -->
<property>
 <name>mapreduce.jobhistory.address</name>
 <value>hadoop102:10020</value>
</property>
<!-- 历史服务器 web 端地址 -->
<property>
 <name>mapreduce.jobhistory.webapp.address</name>
 <value>hadoop102:19888</value>
</property>
</configuration>

产生背景

一个操作系统存不下所有数据

定义

HDFS（Hadoop Distributed File System）他是一个分布式文件系统

优缺点

优点

高容错性
数据自动保存多个副本，他通过增加副本的形式，提高容错性
某个副本丢失后他可以自动恢复
适合处理大数据
数据规模：GB、TB、PB
文件规模：百万规模以上的文件数量
构建机器廉价

缺点

不适合低延时数据访问，比如毫秒级的存储数据
无法高效对大量小文件进行存储
存储大量小文件的话，他会占用NameNode 大量内存来存储文件目录和块信息。这样是不可取，因为NameNode的内存是有限的

小文件存储的寻址时间会超过读取时间，他违反了HDFS的设计目标
不支持并发写入，文件随机修改
一个文件只能有一个写，不允许多线程同时写
仅支持数据append，不支持文件的随机修改

HDFS组成架构

NameNode：就是Master，他是一个主管，
管理HDFS的名称空间
配置副本策略
管理数据块映射信息
处理客户端读写请求
DataNode：执行者
存储实际数据块
执行数据块的读写操作
Client：客户端
文件切分。Client将文件切成一个一个Block块进行上传
与NameNode交互，获取文件位置信息
与DataNode交互，读取或写入数据
提供命令管理和访问HDFS
Secondary NameNode：并非NameNode热备（需要手动设置）。
辅助NameNode，分档工作量，比如定期合并Fsimage和Edits，并推送NameNode
在紧急情况下，可辅助NameNode

HDFS文件块大小

HDFS的文件在物理上是分块存储的（Block），
块的大小可以通过配置参数（dfs.blocksize）来规定，默认大小在hadoop3版本是128M
 为什么块的大小不能设置太小和过大？
 （1）HDFS的块设置太小，增加寻址时间
 （2）太大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需要的时间。处理速度慢
 总结HDFS块的大小设置主要取决于磁盘传输速率

HDFS读写流程

请添加图片描述

客户端通过Distributed FileSystem模块想NameNode请求上传文件，NameNode价差目标文件是否存在，父目录是否存在
NameNode返回是否可以上传
客户端请求第一个Block上传到那几个DataNode服务器上
NameNode返回3个DataNode，分别dn1，dn2，dn3
客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成
dn1，dn2，dn3逐级应答客户端
客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，dn1收到一个Packet就会传给dn2，dn2传递给dn3，dn1每传一个packet会放入一个应答队列等待应答
当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block服务器（重复执行3-7）

网络拓扑-节点距离计算

在HDFS写数据的过程中，NameNode会选择距离带上传数据最近距离的DataNode接收数据。如何计算？
节点距离：两个节点到达最近共同祖先的距离总和

机架感知

第一个副本在Client所处的节点上，如果客户端在集群外，随机选一个
第二个副本在另一台机架的随机一个节点上
第三个副本在第二个副本所在机架的随机节点

读取数据流程

客户端通过DistributeFileSystem向NameNode请求下载文件，NameNode通过查询数据，找到文件块所在的DataNode地址
挑选一台DataNode（就近原则，然后随机）服务器，请求读取数据
DataNode开始传输数据给客户端（从磁盘里面读取数据输入流，以Packet为单位）
客户端以Packet为单位接收，现在本地缓存，然后写入目标文件

NN和2NN工作机制

思考：NameNode中的元数据存储在哪里？
内存中一份数据
FSImage和Edits 两者合并等于内存

SeondaryNamenode专门用于FsImage和Edits的合并

请添加图片描述

第一个阶段：NameNode启动

第一次启动NameNode格式化后，创建Fsimage和Edits文件，如果不是第一次启动，直接加载编辑日志和镜像文件到内存
客户端对元数据进行增删改的请求
NameNode记录操作日志，更新滚动日志
NameNode在内存中对元数据进行增删改

第二阶段：Secondary NameNode工作

Secondary NameNode询问NameNode是否需要CheckPoint。直接带回NameNode检查结果
Secondary NameNode请求执行CheckPoint
NameNode滚动正在写的Edits日志
将滚动前的编辑日志和镜像文件拷贝到Secondary NameNode
Secondary NameNode加载编辑日志和镜像文件到内存，并合并
生成新的镜像文件fsimage.chkpoint
拷贝fsimage.chkpoint到NameNode
NameNode将faimage.chkpoint重新命名成fsimage

Fsimage和Edits解析

NameNode被格式化之后，将在/opt/moudle/hadoop-3.1.3/data/tmp/dfs/name/current目录中产生如下文件
请添加图片描述

Fsimage文件：HDFS文件系统元数据的一个永久性的检查点，其中包含HDFS文件系统的素有目录和文件inode的序列化信息
Edits文件：存放HDFS文件系统的所有更新操作的路径，客户端的所有写操作都会被记录Edits
send_txid文件保存的是一个数字，就是最后一个edits_的数字
每次NameNode启动的时候都会将Fsimage文件读入内存，加载Edits里面的更新操作，保证内存中得元数据信息是最新的、同步的，可以看成NameNode启动的时候就将Fsimage和Edits文件进行了合并

oiv查看Fsimage文件
hdfs oiv -p 文件类型 -i 镜像文件 -o 转换后文件输出路径

cd /opt/module/hadoop-3.1.3/data/dfs/name/current
hdfs oiv -p XML -i fsimage_0000000000000000025 -o /opt/module/hadoop-3.1.3/fsimage.xml

Fsimage 中没有记录块所对应 DataNode，为什么？
在集群启动后，要求 DataNode 上报数据块信息，并间隔一段时间后再次上报。

oev查看Edits文件
hdfs oev -p 文件类型 -i 编辑日志 -o 转换后文件输出路径

 hdfs oev -p XML -i edits_0000000000000000012-0000000000000000013 -o    	/opt/module/hadoop-

3.1.3/edits.xml

cat /opt/module/hadoop-3.1.3/edits.xml

NameNode 如何确定下次开机启动的时候合并哪些 Edits？
	fsiamge_编号，把大于fsimage这个编号的edits_进行合并

CheckPoint时间设置

通常情况下。2NN每个一小时执行一次
hdfs-default.xml

	
	<property>
	 <name>dfs.namenode.checkpoint.period</name>
	 <value>3600s</value>
	</property>

一分钟检查一次操作次数，当操作次数达到 1 百万时，SecondaryNameNode 执行一次

<property>
 <name>dfs.namenode.checkpoint.txns</name>
 <value>1000000</value>
<description>操作动作次数</description>
</property>
<property>
 <name>dfs.namenode.checkpoint.check.period</name>
 <value>60s</value>
<description> 1 分钟检查一次操作次数</description>
</property>

实际开发通常不配置，因为搭建HA，不会用到2NN

DataNode工作机制

请添加图片描述

一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个十数据本身，一个是元数据包括数据块的长度、块数据的校验以及时间戳
DataNode启动后想NameNode注册，通过后，周期性（6小时）想NameNode上报所有的块信息
DN向NN汇报当前解读信息的时间间隔，默认6小时

<property>
<name>dfs.blockreport.intervalMsec</name>
<value>21600000</value>
<description>Determines block reporting interval in 
milliseconds.</description>
</property>

DN 扫描自己节点块信息列表的时间，默认 6 小时

<property>
<name>dfs.datanode.directoryscan.interval</name>
<value>21600s</value>
<description>Interval in seconds for Datanode to scan data
the disk.
Support multiple time unit suffix(case insensitive), as described
in dfs.heartbeat.interval.
</description>
</property>

信条是每3秒一次，心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器，或删除块数据。如果超过10分钟未收到心跳，则认为该节点不可用

数据准确性

CRC校验

掉线时限参数设置

请添加图片描述
需要注意的是 hdfs-site.xml 配置文件中的 heartbeat.recheck.interval 的单位为毫秒，
dfs.heartbeat.interval 的单位为秒。

<property>
 <name>dfs.namenode.heartbeat.recheck-interval</name>
 <value>300000</value>
</property>
<property>
 <name>dfs.heartbeat.interval</name>
 <value>3</value>
</property>

MapReduce

概述

MapReduce是分布式运算的编程框架
优点：
	易于编程。时限业务接口
	良好的扩展性。动态增加服务器，解决计算资源不够的问题
	高容错性。任何一台机器挂掉，可以任务转移
	适合海量数据计算（TB/PB）
缺点：
	不擅长实时计算
	不擅长流逝计算
	不擅长DAG有向无环图计算
	
MapReduce进程
	一个完整的MapReducer程序在分布式运行时有三类进程：
		MrAppMaster：调度
		MapTask：
		ReduceTask

序列化

Java 类型 			Hadoop Writable 类型
Boolean 				BooleanWritable
Byte					ByteWritable
Int 					IntWritable
Float 					FloatWritable
Long 					LongWritable
Double					 DoubleWritable
String 					Text
Map 					MapWritable
Array				 ArrayWritable
Null 					NullWritable

wordcount

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>org.example</groupId>
    <artifactId>MapReduceDemo</artifactId>
    <version>1.0-SNAPSHOT</version>
    <packaging>jar</packaging>

    <name>MapReduceDemo</name>
    <url>http://maven.apache.org</url>

    <properties>
        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    </properties>

    <dependencies>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>3.1.3</version>
        </dependency>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.12</version>
        </dependency>
        <dependency>
            <groupId>org.slf4j</groupId>
            <artifactId>slf4j-log4j12</artifactId>
            <version>1.7.30</version>
        </dependency>
    </dependencies>
    <build>
        <plugins>
            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.6.1</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                </configuration>
            </plugin>
            <plugin>
                <artifactId>maven-assembly-plugin</artifactId>
                <configuration>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependencies</descriptorRef>
                    </descriptorRefs>
                </configuration>
                <executions>
                    <execution>
                        <id>make-assembly</id>
                        <phase>package</phase>
                        <goals>
                            <goal>single</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>
</project>

log4j.properties

log4j.rootLogger=INFO, stdout 
log4j.appender.stdout=org.apache.log4j.ConsoleAppender 
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout 
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n 
log4j.appender.logfile=org.apache.log4j.FileAppender 
log4j.appender.logfile.File=target/spring.log 
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout 
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

package com.atguigu.mapreduce.wordcount;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class WordCountMapper extends Mapper<LongWritable, Text, Text,
        IntWritable> {
    Text k = new Text();
    IntWritable v = new IntWritable(1);

    @Override
    protected void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {
// 1 获取一行
        String line = value.toString();
// 2 切割
        String[] words = line.split(" ");
// 3 输出
        for (String word : words) {
            k.set(word);
            context.write(k, v);
        }
    }
}

package com.atguigu.mapreduce.wordcount;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class WordCountReducer extends Reducer<Text, IntWritable, Text,
        IntWritable> {
    int sum;
    IntWritable v = new IntWritable();

    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context
            context) throws IOException, InterruptedException {
// 1 累加求和
        sum = 0;
        for (IntWritable count : values) {
            sum += count.get();
        }
// 2 输出
        v.set(sum);
        context.write(key, v);
    }
}

package com.atguigu.mapreduce.wordcount;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class WordCountDriver {
    public static void main(String[] args) throws IOException,
            ClassNotFoundException, InterruptedException {
// 1 获取配置信息以及获取 job 对象
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);
// 2 关联本 Driver 程序的 jar
        job.setJarByClass(WordCountDriver.class);
// 3 关联 Mapper 和 Reducer 的 jar
        job.setMapperClass(WordCountMapper.class);
        job.setReducerClass(WordCountReducer.class);
// 4 设置 Mapper 输出的 kv 类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
// 5 设置最终输出 kv 类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
// 6 设置输入和输出路径
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
// 7 提交 job
        boolean result = job.waitForCompletion(true);
        System.exit(result ? 0 : 1);
    }
}

打包
测试：

hadoop jar MapReduceDemo-1.0-SNAPSHOT.jar com.atguigu.mapreduce.wordcount.WordCountDriver /user/atguigu/input/word.txt /user/atguigu/output

Hadoop序列化

具体实现 bean 对象序列化步骤如下 7 步。
（1）必须实现 Writable 接口
（2）反序列化时，需要反射调用空参构造函数，所以必须有空参构造
public FlowBean() {
super();
}
（3）重写序列化方法

	@Override
	public void write(DataOutput out) throws IOException {
	out.writeLong(upFlow);
	out.writeLong(downFlow);
	out.writeLong(sumFlow);
	}

（4）重写反序列化方法

		@Override
			public void readFields(DataInput in) throws IOException {
			upFlow = in.readLong();
			downFlow = in.readLong();
			sumFlow = in.readLong();
			}

（5）注意反序列化的顺序和序列化的顺序完全一致
（6）要想把结果显示在文件中，需要重写 toString()，可用"\t"分开，方便后续用。
（7）如果需要将自定义的 bean 放在 key 中传输，则还需要实现 Comparable 接口，因为
MapReduce 框中的 Shuffle 过程要求对 key 必须能排序。详见后面排序案例。

@Override
public int compareTo(FlowBean o) {
// 倒序排列，从大到小
return this.sumFlow > o.getSumFlow() ? -1 : 1;
}

序列化案例：统计每一个手机号耗费的总上行流量、总下行流量、总流量
（1）输入数据
（2）输入数据格式：
7 13560436666 120.196.100.99 1116 954 200
id 手机号码网络 ip 上行流量下行流量网络状态码
（3）期望输出数据格式
13560436666 1116 954 2070
手机号码上行流量下行流量总流量

public class FlowBean implements Writable {
    private long upFlow; //上行流量
    private long downFlow; //下行流量
    private long sumFlow; //总流量

    //2 提供无参构造
    public FlowBean() {
    }

    //3 提供三个参数的 getter 和 setter 方法
    public long getUpFlow() {
        return upFlow;
    }

    public void setUpFlow(long upFlow) {
        this.upFlow = upFlow;
    }

    public long getDownFlow() {
        return downFlow;
    }

    public void setDownFlow(long downFlow) {
        this.downFlow = downFlow;
    }

    public long getSumFlow() {
        return sumFlow;
    }

    public void setSumFlow(long sumFlow) {
        this.sumFlow = sumFlow;
    }

    public void setSumFlow() {
        this.sumFlow = this.upFlow + this.downFlow;
    }

    //4 实现序列化和反序列化方法,注意顺序一定要保持一致
    @Override
    public void write(DataOutput dataOutput) throws IOException {
        dataOutput.writeLong(upFlow);
        dataOutput.writeLong(downFlow);
        dataOutput.writeLong(sumFlow);
    }

    @Override
    public void readFields(DataInput dataInput) throws IOException {
        this.upFlow = dataInput.readLong();
        this.downFlow = dataInput.readLong();
        this.sumFlow = dataInput.readLong();
    }

    //5 重写 ToString
    @Override
    public String toString() {
        return upFlow + "\t" + downFlow + "\t" + sumFlow;
    }
}

public class FlowMapper extends Mapper<LongWritable, Text, Text, FlowBean>
{
 private Text outK = new Text();
 private FlowBean outV = new FlowBean();
 @Override
 protected void map(LongWritable key, Text value, Context context)
throws IOException, InterruptedException {
 //1 获取一行数据,转成字符串
 String line = value.toString();
 //2 切割数据
 String[] split = line.split("\t");
 //3 抓取我们需要的数据:手机号,上行流量,下行流量
 String phone = split[1];
 String up = split[split.length - 3];
 String down = split[split.length - 2];
 //4 封装 outK outV
 outK.set(phone);outV.setUpFlow(Long.parseLong(up));
  outV.setDownFlow(Long.parseLong(down));
  outV.setSumFlow();
  //5 写出 outK outV
  context.write(outK, outV);
 }
}

public class FlowReducer extends Reducer<Text, FlowBean, Text, FlowBean>
{
 private FlowBean outV = new FlowBean();
 @Override
 protected void reduce(Text key, Iterable<FlowBean> values, Context
context) throws IOException, InterruptedException {
 long totalUp = 0;
 long totalDown = 0;
 //1 遍历 values,将其中的上行流量,下行流量分别累加
 for (FlowBean flowBean : values) {
 totalUp += flowBean.getUpFlow();
 totalDown += flowBean.getDownFlow();
 }
 //2 封装 outKV
 outV.setUpFlow(totalUp);
 outV.setDownFlow(totalDown);
 outV.setSumFlow();
 //3 写出 outK outV
 context.write(key,outV);
 }
}

public class FlowDriver {
    public static void main(String[] args) throws IOException,
            ClassNotFoundException, InterruptedException {
        //1 获取 job 对象
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);
        //2 关联本 Driver 类
        job.setJarByClass(FlowDriver.class);
        //3 关联 Mapper 和 Reducer
        job.setMapperClass(FlowMapper.class);
        job.setReducerClass(FlowReducer.class);

//4 设置 Map 端输出 KV 类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(FlowBean.class);

//5 设置程序最终输出的 KV 类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(FlowBean.class);

//6 设置程序的输入输出路径
        FileInputFormat.setInputPaths(job, new Path("F:\\bigData\\hadoop\\hadoop-learn-master\\笔记（word版本）\\笔记（word版本）\\phone_data.txt"));
        FileOutputFormat.setOutputPath(job, new Path(".\\output"));

//7 提交 Job
        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);
    }
}

InputFormat数据输入

请添加图片描述

切片与MapTask并行度决定机制

切片的个数决定 MapTask个数

MapTask并行度决定机制
数据块：Block是HDFS物理上把数据分成一块一块。数据块是HDFS存储数据单位
数据切片：数据切片只是在逻辑上对输入进行切片，并不会在磁盘上将其切分成片存储。数据切片是MapReduce程序计算输入数据的单位，一个切片会对应启动一个MapTask

数据切片与MapTask并行度决定机制
请添加图片描述

TextInputFormat

思考：在运行 MapReduce 程序时，输入的文件格式包括：基于行的日志文件、二进制
格式文件、数据库表等。那么，针对不同的数据类型，MapReduce 是如何读取这些数据的呢？
FileInputFormat 常见的接口实现类包括：TextInputFormat、KeyValueTextInputFormat、
NLineInputFormat、CombineTextInputFormat 和自定义 InputFormat 等。

TextInputFormat 是默认的 FileInputFormat 实现类。按行读取每条记录。键是存储该行在整个文件中的起始字节偏移量， LongWritable 类型。值是这行的内容，不包括任何行终止
符（换行符和回车符），Text 类型。

以下是一个示例，比如，一个分片包含了如下 4 条文本记录。

Rich learning form
Intelligent learning engine
Learning more convenient
From the real demand for more close to the enterprise
每条记录表示为以下键/值对：
(0,Rich learning form)
(20,Intelligent learning engine)
(49,Learning more convenient)
(74,From the real demand for more close to the enterprise)

CombineTextInputFormat 切片机制

框架默认的 TextInputFormat 切片机制是对任务按文件规划切片，不管文件多小，都会
是一个单独的切片，都会交给一个 MapTask，这样如果有大量小文件，就会产生大量的
MapTask，处理效率
极其低下
1）应用场景：
CombineTextInputFormat 用于小文件过多的场景，它可以将多个小文件从逻辑上规划到
一个切片中，这样，多个小文件就可以交给一个 MapTask 处理。
2）虚拟存储切片最大值设置
CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);// 4m
注意：虚拟存储切片最大值设置最好根据实际的小文件大小情况来设置具体的值。
3）切片机制
生成切片过程包括：虚拟存储过程和切片过程二部分。
请添加图片描述

实现过程
（1）不做任何处理，运行 1.8 节的 WordCount 案例程序，观察切片个数为 4。
number of splits:4
（2）在 WordcountDriver 中增加如下代码，运行程序，并观察运行的切片个数为 3。
（a）驱动类中添加代码如下：
// 如果不设置 InputFormat，它默认用的是 TextInputFormat.class
job.setInputFormatClass(CombineTextInputFormat.class);
//虚拟存储切片最大值设置 4m
CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);
（b）运行如果为 3 个切片。
number of splits:3
（3）在 WordcountDriver 中增加如下代码，运行程序，并观察运行的切片个数为 1。
（a）驱动中添加代码如下：
// 如果不设置 InputFormat，它默认用的是 TextInputFormat.class
job.setInputFormatClass(CombineTextInputFormat.class);
//虚拟存储切片最大值设置 20m
CombineTextInputFormat.setMaxInputSplitSize(job, 20971520);
（b）运行如果为 1 个切片
number of splits:1

MapReduce工作流程

请添加图片描述

Partition 分区

问题引出
要求将统计结果按照条件输出到不同文件中（分区）。比如：将统计结果按照手机归属地不同省份输出到不同文件中（分区）

默认分区是根据key的hashCode对ReduceTasks个数取模得到的。用户没法控制哪个
key存储到哪个分区。

自定义Partitioner步骤
（1）自定义类继承Partitioner，重写getPartition()方法

public class PPartitioner extends Partitioner<Text, FlowBean> {
    @Override
    public int getPartition(Text text, FlowBean flowBean, int i) {
        String phone = text.toString();
        String prePhone = phone.substring(0, 3);
        int partition;
        if ("136".equals(prePhone)) {
            partition = 0;
        } else if ("137".equals(prePhone)) {
            partition = 1;
        } else if ("138".equals(prePhone)) {
            partition = 2;
        } else if ("139".equals(prePhone)) {
            partition = 3;
        } else {
            partition = 4;
        }
        return partition;
    }
}

（2）在Job驱动中，设置自定义Partitioner,同时自定义Partition后，要根据自定义Partitioner的逻辑设置相应数量的ReduceTask


//8 指定自定义分区器
 job.setPartitionerClass(PPartitioner.class);
 //9 同时指定相应数量的 ReduceTask
 job.setNumReduceTasks(5);

分区总结

（1）如果ReduceTask的数量> getPartition的结果数，则会多产生几个空的输出文件part-r-000xx；
（2）如果1<ReduceTask的数量<getPartition的结果数，则有一部分分区数据无处安放，会Exception；
（3）如果ReduceTask的数量=1，则不管MapTask端输出多少个分区文件，最终结果都交给这一个
ReduceTask，最终也就只会产生一个结果文件 part-r-00000；

WritableComparable 排序

排序是MapReduce框架中最重要的操作之一。

MapTask和ReduceTask均会对数据按照Key进行排序。该操作属于Hadoop默认行为。任何应用程序中的数据均会默认排序，而不是逻辑上是否需要

默认排序是按照字典顺序排序，且实现该排序的方法是快速排序。

排序概述

对于MapTask，它会将处理的结果暂时放到环形缓冲区中，当环形缓冲区使
用率达到一定阈值后，再对缓冲区中的数据进行一次快速排序，并将这些有序数
据溢写到磁盘上，而当数据处理完毕后，它会对磁盘上所有文件进行归并排序。

对于ReduceTask，它从每个MapTask上远程拷贝相应的数据文件，如果文件大
小超过一定阈值，则溢写磁盘上，否则存储在内存中。如果磁盘上文件数目达到
一定阈值，则进行一次归并排序以生成一个更大文件；如果内存中文件大小或者
数目超过一定阈值，则进行一次合并后将数据溢写到磁盘上。当所有数据拷贝完
毕后，ReduceTask统一对内存和磁盘上的所有数据进行一次归并排序

排序分类

（1）部分排序
MapReduce根据输入记录的键对数据集排序。保证输出的每个文件内部有序。
（2）全排序
最终输出结果只有一个文件，且文件内部有序。实现方式是只设置一个ReduceTask。但该方法在
处理大型文件时效率极低，因为一台机器处理所有文件，完全丧失了MapReduce所提供的并行架构。
（3）辅助排序：（GroupingComparator分组）
在Reduce端对key进行分组。应用于：在接收的key为bean对象时，想让一个或几个字段相同（全部
字段比较不相同）的key进入到同一个reduce方法时，可以采用分组排序。
（4）二次排序
在自定义排序过程中，如果compareTo中的判断条件为两个即为二次排序

自定义排序 WritableComparable 原理分析

bean 对象做为 key 传输，需要实现 WritableComparable 接口重写 compareTo 方法，就可
以实现排序。

@Override
public int compareTo(FlowBean bean) {
int result;
// 按照总流量大小，倒序排列
if (this.sumFlow > bean.getSumFlow()) {
result = -1;
}else if (this.sumFlow < bean.getSumFlow()) {
result = 1;
}else {
result = 0;
}
return result;
}

Yarn

概述

Yarn是资源调度，负责运算程序提供服务器运算资源
请添加图片描述

请添加图片描述

Yarn调度器

FIFO

请添加图片描述

容量调度器

请添加图片描述

公平调度器

大公司 公平调度器
小公司 容量调度器

Yarn命令

yarn application 查看任务

 yarn application -list
根据 Application 状态过滤：yarn application -list -appStates （所有状态：ALL、NEW、

NEW_SAVING、SUBMITTED、ACCEPTED、RUNNING、FINISHED、FAILED、KILLED）
yarn application -kill
application_1612577921195_0001

yarn logs 查看日志

application： yarn logs -applicationId application_1612577921195_0001
container： yarn logs -applicationId application_1612577921195_0001 -containerId container_1612577921195_0001_01_000001

yarn applicationattempt 查看尝试运行的任务

列出所有 Application 尝试的列表： yarn applicationattempt -list application_1612577921195_0001
打印 ApplicationAttemp 状态： yarn applicationattempt -statusappattempt_1612577921195_0001_000001

yarn container 查看容器

列出所有 Container： yarn container -list
appattempt_1612577921195_0001_000001
打印 Container 状态： yarn container -status
container_1612577921195_0001_01_000001
注：只有在任务跑的途中才能看到 container 的状态

yarn node 查看节点状态

yarn node -list -all

yarn rmadmin 更新配置

yarn rmadmin -refreshQueues

yarn queue 查看队列

yarn queue -status default

Yarn 生产环境核心参数配置案例

1）需求：从 1G 数据中，统计每个单词出现次数。服务器 3 台，每台配置 4G 内存，4 核
CPU，4 线程。
2）需求分析：
1G / 128m = 8 个 MapTask；1 个 ReduceTask；1 个 mrAppMaster
平均每个节点运行 10 个 / 3 台 ≈ 3 个任务（4 3 3）

yarn-site.xml

<!-- 选择调度器，默认容量 -->
<property>
<description>The class to use as the resource scheduler.</description>
<name>yarn.resourcemanager.scheduler.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capaci
ty.CapacityScheduler</value>
</property>
<!-- ResourceManager 处理调度器请求的线程数量,默认 50；如果提交的任务数大于 50，可以
增加该值，但是不能超过 3 台 * 4 线程 = 12 线程（去除其他应用程序实际不能超过 8） -->
<property>
<description>Number of threads to handle scheduler 
interface.</description>
<name>yarn.resourcemanager.scheduler.client.thread-count</name>
<value>8</value>
</property>
<!-- 是否让 yarn 自动检测硬件进行配置，默认是 false，如果该节点有很多其他应用程序，建议
手动配置。如果该节点没有其他应用程序，可以采用自动 -->
<property>
<description>Enable auto-detection of node capabilities such as
memory and CPU.
</description>
<name>yarn.nodemanager.resource.detect-hardware-capabilities</name>
<value>false</value>
</property>
<!-- 是否将虚拟核数当作 CPU 核数，默认是 false，采用物理 CPU 核数 -->
<property>
<description>Flag to determine if logical processors(such as
hyperthreads) should be counted as cores. Only applicable on Linux
when yarn.nodemanager.resource.cpu-vcores is set to -1 and
yarn.nodemanager.resource.detect-hardware-capabilities is true.
</description>
<name>yarn.nodemanager.resource.count-logical-processors-ascores</name>
<value>false</value>
</property>
<!-- 虚拟核数和物理核数乘数，默认是 1.0 -->
<property>
<description>Multiplier to determine how to convert phyiscal cores to
vcores. This value is used if yarn.nodemanager.resource.cpu-vcores
is set to -1(which implies auto-calculate vcores) and
yarn.nodemanager.resource.detect-hardware-capabilities is set to true. 
The number of vcores will be calculated as number of CPUs * multiplier.
</description>
<name>yarn.nodemanager.resource.pcores-vcores-multiplier</name>
<value>1.0</value>
</property>
<!-- NodeManager 使用内存数，默认 8G，修改为 4G 内存 -->
<property>
<description>Amount of physical memory, in MB, that can be allocated 
for containers. If set to -1 and
yarn.nodemanager.resource.detect-hardware-capabilities is true, it is
automatically calculated(in case of Windows and Linux).
In other cases, the default is 8192MB.
</description>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>4096</value>
</property>
<!-- nodemanager 的 CPU 核数，不按照硬件环境自动设定时默认是 8 个，修改为 4 个 -->
<property>
<description>Number of vcores that can be allocated
for containers. This is used by the RM scheduler when allocating
resources for containers. This is not used to limit the number of
CPUs used by YARN containers. If it is set to -1 and
yarn.nodemanager.resource.detect-hardware-capabilities is true, it is
automatically determined from the hardware in case of Windows and Linux.
In other cases, number of vcores is 8 by default.</description>
<name>yarn.nodemanager.resource.cpu-vcores</name>
<value>4</value>
</property>
<!-- 容器最小内存，默认 1G -->
<property>
<description>The minimum allocation for every container request at theRM in MBs. Memory requests lower than this will be set to the value of 
this property. Additionally, a node manager that is configured to have 
less memory than this value will be shut down by the resource manager.
</description>
<name>yarn.scheduler.minimum-allocation-mb</name>
<value>1024</value>
</property>
<!-- 容器最大内存，默认 8G，修改为 2G -->
<property>
<description>The maximum allocation for every container request at the 
RM in MBs. Memory requests higher than this will throw an
InvalidResourceRequestException.
</description>
<name>yarn.scheduler.maximum-allocation-mb</name>
<value>2048</value>
</property>
<!-- 容器最小 CPU 核数，默认 1 个 -->
<property>
<description>The minimum allocation for every container request at the 
RM in terms of virtual CPU cores. Requests lower than this will be set to 
the value of this property. Additionally, a node manager that is configured 
to have fewer virtual cores than this value will be shut down by the 
resource manager.
</description>
<name>yarn.scheduler.minimum-allocation-vcores</name>
<value>1</value>
</property>
<!-- 容器最大 CPU 核数，默认 4 个，修改为 2 个 -->
<property>
<description>The maximum allocation for every container request at the 
RM in terms of virtual CPU cores. Requests higher than this will throw an
InvalidResourceRequestException.</description>
<name>yarn.scheduler.maximum-allocation-vcores</name>
<value>2</value>
</property>
<!-- 虚拟内存检查，默认打开，修改为关闭 -->
<property>
<description>Whether virtual memory limits will be enforced for
containers.</description>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
<!-- 虚拟内存和物理内存设置比例,默认 2.1 -->
<property>
<description>Ratio between virtual memory to physical memory when
setting memory limits for containers. Container allocations are
expressed in terms of physical memory, and virtual memory usage is 
allowed to exceed this allocation by this ratio.
</description>
<name>yarn.nodemanager.vmem-pmem-ratio</name>
<value>2.1</value>
</property>

请添加图片描述

4）分发配置。
注意：如果集群的硬件资源不一致，要每个 NodeManager 单独配置
5）重启集群
[atguigu@hadoop102 hadoop-3.1.3]$ sbin/stop-yarn.sh
[atguigu@hadoop103 ha
doop-3.1.3]$ sbin/start-yarn.sh
6）执行 WordCount 程序
[atguigu@hadoop102 hadoop-3.1.3]$ hadoop jar
share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount
/input /output
7）观察 Yarn 任务执行页面
http://hadoop103:8088/cluster/apps