hadoop存储与分析-MapReduce3

最新推荐文章于 2022-03-26 15:48:58 发布

小中.

最新推荐文章于 2022-03-26 15:48:58 发布

阅读量210

点赞数 4

分类专栏： Hadoop 文章标签： hadoop java

本文链接：https://blog.csdn.net/z1987865446/article/details/108859421

版权

Hadoop 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

MapReduce

概述

MapReduce是一个 Hadoop 的并行计算框架，借鉴了函数式编程思想和矢量编程。Hadoop 中是充分利用了存储节点/Data Node运行所在主机的计算资源（CPU、内存、网络、少许磁盘）完成对任务的并行计算。Map Reduce框架会在所有的DataNode所在的物理主机启动一个计算资源管理者Node Manager用于管理本地的计算资源，默认系统会将计算资源均分8个等份，每个等份抽象成一个Container，该Container主要作为资源隔离。还会再找一些其他的主机启动一个资源管理中心Resource Manager，用于管理集群的计算资源。

流程分析

当用户提交一个计算任务给MapReduce框架，框架会将任务拆分成Map阶段和Reduce阶段（矢量编程思想将任务拆分成两个阶段），框架会根据Map/Reduce阶段的任务并行度.在任务提交初期会启动一个任务管理者（每个任务都有自己的任务管理者）-MRAppMaster（该进程会浪费掉1个计算资源）用于管理Map阶段和Reduce阶段任务执行。在任务执行时期，每个阶段会根据阶段任务的并行度分配计算资源（每个计算资源启动一个Yarn Child），由MRAppMaster完成对阶段任务的检测管理。

在这里插入图片描述

ResourceManager:负责任务资源的统一调度，管理NodeManager资源，启动MRAppMaster

NodeManager:用于管理本机上的计算资源，默认会将本机的计算资源拆分为8个等份，每个等份抽象成Container

MRAppMaster:任何一个执行的任务都会有一个MRAppMaster负责YarnChild任务的执行和监测。

YarnChild:是具体执行的MapTask或者是ReduceTask的统称。

任务执行期间系统会启动MRAppmaster和YarnChild负责任务的执行，一旦任务执行结束MRAppMaster和YarnChild会自动退出。

环境搭建

①配置资源管理器

[root@CentOS ~]# vi /usr/hadoop-2.9.2/etc/hadoop/yarn-site.xml

<!--配置MapReduce计算框架的核心实现Shuffle-洗牌-->
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
<!--配置资源管理器所在的目标主机-->
<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>CentOS</value>
</property>
<!--关闭物理内存检查-->
<property>
    <name>yarn.nodemanager.pmem-check-enabled</name>
    <value>false</value>
</property>
<!--关闭虚拟内存检查-->
<property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
</property>

②配置MapReduce计算框架

[root@CentOS ~]# mv /usr/hadoop-2.9.2/etc/hadoop/mapred-site.xml.template  /usr/hadoop-2.9.2/etc/hadoop/mapred-site.xml
[root@CentOS ~]# vi /usr/hadoop-2.9.2/etc/hadoop/mapred-site.xml

<!--MapRedcue框架资源管理器的实现-->
<property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
</property>

③启动计算服务

[root@CentOS ~]# start-yarn.sh
starting yarn daemons
starting resourcemanager, logging to /usr/hadoop-2.9.2/logs/yarn-root-resourcemanager-CentOS.out
CentOS: starting nodemanager, logging to /usr/hadoop-2.9.2/logs/yarn-root-nodemanager-CentOS.out
[root@CentOS ~]# jps
13078 SecondaryNameNode
12824 DataNode
1080 ResourceManager
12681 NameNode
1195 NodeManager
1262 Jps

④可以访问ResourManager内嵌WebUI页面:http://CentOS:8088

在这里插入图片描述

MapReduce任务开发

背景

假设我们有如下的一张表，需要统计出每个版块被点击次数。

日志级别	类别	点击日期
INFO	/product/xxxx1	2020-09-28 10:10:00
INFO	/product/xxxx2	2020-09-28 12:10:00
INFO	/cart/xxxx2	2020-09-28 12:10:00
INFO	/order/xxxx	2020-09-28 12:10:00

如果我们可以将以上的日志看做成是数据库中的一张表，这个问题就可以使用以下SQL解决：

select category,sum(1) from t_click group by category

如果使用上面提到的MapReduce计算模型，我们可以使用Map完成group的功能，使用Reduce完成sum的功能。有如下数据格式

INFO /product/xxx/1?name=zhangsan 2020-09-28 10:10:00
INFO /product/xxx/1?name=zhangsan 2020-09-28 10:10:00
INFO /cart/xxx/1?name=lisi 2020-09-28 10:10:00
INFO /order/xxx/1?name=zhangsan 2020-09-28 10:10:00
INFO /product/xxx/1?name=zhaoliu 2020-09-28 10:10:00
INFO /cart/xxx/1?name=win7 2020-09-28 10:10:00

实现

①写Mapper逻辑

package com.baizhi.click;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**
 * 类的作用：
 * 版本：bj1.0
 * 作者：zyk
 * 创建时间:2020/9/28/18:04
 */
public class URLMapper extends Mapper<LongWritable, Text,Text, IntWritable> {
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        //获取当前行数据
         String line = value.toString();
        //分割数据获取url
         String url = line.split("\\s")[1];
        //获取类别类别下标
         int endIndex = url.indexOf("/", 1);
        // 获取分类
         String category = url.substring(0, endIndex);
        //将转换的结果输出
        context.write(new Text(category),new IntWritable(1));
    }
}

②Reducer逻辑

package com.baizhi.click;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;

/**
 * 类的作用：
 * 版本：bj1.0
 * 作者：zyk
 * 创建时间:2020/9/28/18:19
 */
public class URLReducer extends Reducer<Text, IntWritable,Text,IntWritable> {
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        //初始化total
        int total = 0;
        //遍历进行累加
        for (IntWritable value : values) {
            total += value.get();
        }
        // 返回结果
        context.write(key,new IntWritable(total));
    }
}

③封装Job对象

package com.baizhi.click;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

/**
 * 类的作用：
 * 版本：bj1.0
 * 作者：zyk
 * 创建时间:2020/9/28/18:35
 */
public class URLCountApplication extends Configured implements Tool {


    public int run(String[] strings) throws Exception {
        //1、创建一个Job对象
         Configuration conf = getConf();
        //跨平台提交
        conf.addResource("core-site.xml");
        conf.addResource("hdfs-site.xml");
        conf.addResource("yarn-site.xml");
        conf.addResource("mapred-site.xml");
        conf.set("mapreduce.job.jar","file:///D:\\code\\hadoop-work\\MapReduce\\target\\MapReduce-1.0-SNAPSHOT.jar");
        final Job job = Job.getInstance(conf, "URLCountApplication");
        /*
        //远程部署
        job.setJarByClass(URLCountApplication.class);
        */



        //2、告诉job数据格式
        job.setInputFormatClass(TextInputFormat.class);
        job.setOutputFormatClass(TextOutputFormat.class);
        //3、设置数据路径

        TextInputFormat.addInputPath(job,new Path("/demo/click"));
        //系统自动创建，如果执行前存在，则放弃执行
        TextOutputFormat.setOutputPath(job,new Path("/demo/result"));
        /*
        TextInputFormat.addInputPath(job,new Path("G:\\demo\\click"));
        //系统自动创建，如果执行前存在，则放弃执行
        TextOutputFormat.setOutputPath(job,new Path("G:\\demo\\result"));
        */
        //4、设置处理逻辑
        job.setMapperClass(URLMapper.class);
        job.setReducerClass(URLReducer.class);

        //5、设置输出的key,value
        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(IntWritable.class);

        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        //提交job
        return  job.waitForCompletion(true)?1:0;
    }
    public static void main(String[] args)throws Exception{
       ToolRunner.run(new URLCountApplication(), args);
    }
}

任务发布

远程部署

需要在job当中添加如下代码

job.setJarByClass(URLCountApplication.class);MapReduce-1.0-SNAPSHOT.jar

设置程序的类加载路径，因为任务是打好jar包以后使用hadoop jar命令提交的.

[root@CentOS ~]# yarn jar MapReduce-1.0-SNAPSHOT.jar com.baizhi.click.URLCountApplication
或者
[root@CentOS ~]# hadoop jar MapReduce-1.0-SNAPSHOT.jar com.baizhi.click.URLCountApplication

tips:如果大家感觉这种打包，然后提交比较复杂，我们可以使用maven提供的ssh远程登录插件，先登录系统后自动执行后续提交任务。

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>org.example</groupId>
    <artifactId>MapReduce</artifactId>
    <version>1.0-SNAPSHOT</version>

    <dependencies>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>2.9.2</version>
        </dependency>
    </dependencies>
    <build>
        <extensions>
            <extension>
                <groupId>org.apache.maven.wagon</groupId>
                <artifactId>wagon-ssh</artifactId>
                <version>2.10</version>
            </extension>
        </extensions>
        <plugins>
            <plugin>
                <groupId>org.codehaus.mojo</groupId>
                <artifactId>wagon-maven-plugin</artifactId>
                <version>1.0</version>
                <executions>
                    <execution>
                        <id>upload-deploy</id>
                        <!-- 运行package打包的同时运行upload-single和sshexec -->
                        <phase>package</phase>
                        <goals>
                            <goal>upload-single</goal>
                            <goal>sshexec</goal>
                        </goals>
                        <configuration>
                            <!-- 需要部署的文件 -->
                            <fromFile>target/${project.artifactId}-${project.version}.jar</fromFile>
                            <!-- 部署目录  用户：密码@ip+部署地址：端口 -->
                            <url>
                                <![CDATA[ scp://root:123456@CentOS/root/ ]]>
                            </url>
                            <!--shell 执行脚本 -->
                            <commands>
                                <command> hadoop fs -rm -r -f /demo/result </command>
                                <command> hadoop jar MapReduce-1.0-SNAPSHOT.jar com.baizhi.click.URLCountApplication </command>
                            </commands>
                            <displayCommandOutputs>true</displayCommandOutputs>
                        </configuration>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>
</project>

本地仿真

无需任何yarn环境，直接通过本地仿真的方式实现.一般需要更改NativeIO源码。这里面由于下载不到2.9.2的源码包，大家可以尝试使用2.6.0代替，将源码的557行代码修改如下：

public static boolean access(String path, AccessRight desiredAccess)
    throws IOException {
    return true;
}

在resource资源目录下添加log4j.proeprties

log4j.rootLogger=INFO,CONSOLE
log4j.appender.CONSOLE=org.apache.log4j.ConsoleAppender 
log4j.appender.CONSOLE.layout=org.apache.log4j.PatternLayout 
log4j.appender.CONSOLE.layout.ConversionPattern=%p %d{yyyy-MM-dd HH:mm:ss,SSS} %C -%m%n

跨平台提交

①将core|hdfs|yarn|mapred-site.xml拷贝到项目的resources目录下

②在mapred-site.xml添加如下配置

<!--开启跨平台-->
<property>
    <name>mapreduce.app-submission.cross-platform	</name>
    <value>true</value>
</property>

③修改job代码

conf.addResource("core-site.xml");
conf.addResource("hdfs-site.xml");
conf.addResource("yarn-site.xml");
conf.addResource("mapred-site.xml");
conf.set("mapreduce.job.jar","file:///xxx.jar");

apred-site.xml添加如下配置

<!--开启跨平台-->
<property>
    <name>mapreduce.app-submission.cross-platform	</name>
    <value>true</value>
</property>

③修改job代码

conf.addResource("core-site.xml");
conf.addResource("hdfs-site.xml");
conf.addResource("yarn-site.xml");
conf.addResource("mapred-site.xml");
conf.set("mapreduce.job.jar","file:///xxx.jar");

小中.

关注

4
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
hadoop存储与分析-MapReduce3

MapReduce概述MapReduce是一个 Hadoop 的并行计算框架，借鉴了函数式编程思想和矢量编程。Hadoop 中是充分利用了存储节点/Data Node运行所在主机的计算资源（CPU、内存、网络、少许磁盘）完成对任务的并行计算。Map Reduce框架会在所有的DataNode所在的物理主机启动一个计算资源管理者Node Manager用于管理本地的计算资源，默认系统会将计算资源均分8个等份，每个等份抽象成一个Container，该Container主要作为资源隔离。还会再找一些其他的主机
复制链接

扫一扫