大数据技术之Hadoop：提交MapReduce任务到YARN执行（八）

最新推荐文章于 2024-06-05 15:48:23 发布

何苏三月

最新推荐文章于 2024-06-05 15:48:23 发布

阅读量1.4k

点赞数

分类专栏：大数据技术文章标签：大数据 hadoop mapreduce java

本文链接：https://blog.csdn.net/yuanfudao/article/details/132789718

版权

大数据技术专栏收录该内容

9 篇文章 4 订阅

订阅专栏

一、前言

我们前面提到了MapReduce，也说了现在几乎没有人再写MapReduce代码了，因为它已经过时了。然而不写代码不意味着它没用，当下很火的HIve技术就到了MapReduce，所以MapReduce还是相当重要的。

但是本章我们暂时不用管MapReduce程序是如何编写的，它的语法结构是什么，我们通过Hadoop系统自带MapReduce示例程序到YARN运行。目的是让各位有一个直观的认识。

在部署并成功启动YARN集群后，我们就可以在YARN上运行各类应用程序了。

YARN作为资源调度管控框架，其本身提供资源供许多程序运行，常见的有：

MapReduce程序
Spark程序
Flink程序

Spark和Flink是大数据后续的学习内容，我们目前先来体验一下在YARN上执行MapReduce程序的过程。

二、示例程序

Hadoop官方内置了一些预置的MapReduce程序代码，我们无需编程，只需要通过命令即可使用。

常用的有2个MapReduce内置程序：

wordcount：单词计数程序	统计指定文件内各个单词出现的次数
pi：求圆周率	通过蒙特卡罗算法（统计模拟法）求圆周率

这些内置的示例MapReduce程序代码，都在：

$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar 这个文件内。

可以通过 hadoop jar 命令来运行它，提交MapReduce程序到YARN中。

语法： hadoop jar 程序文件 java类名 [程序参数] ... [程序参数]

2.1 提交wordcount示例程序

介绍

单词计数示例程序的功能很简单：

给定数据输入的路径（HDFS）、给定结果输出的路径（HDFS）

将输入路径内的数据中的单词进行计数，将结果写到输出路径

步骤

我们可以准备一份数据文件，并上传到HDFS中。

itheima itcast itheima itcast
hadoop hdfs hadoop hdfs
hadoop mapreduce hadoop yarn
itheima hadoop itcast hadoop
itheima itcast hadoop yarn mapreduce

将上述内容保存到Linux中为words.txt文件，并上传到HDFS。

hadoop fs -mkdir -p /input/wordcount
hadoop fs -mkdir /output
hadoop fs -put words.txt /input/wordcount/

执行如下命令，提交示例MapReduce程序WordCount到YARN中执行

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar wordcount hdfs://node1:8020/input/wordcount/ hdfs://node1:8020/output/wc1

注意：