第六章 Hadoop运行模式
Hadoop运行模式包括:
- 本地模式、伪分布式模式以及完全分布式模式。
- Hadoop官方网站:
http://hadoop.apache.org/
6.1 本地运行模式
6.1.1 官方Grep案例
- 创建在hadoop-3.1.2文件下面创建一个input文件夹
[zpark@hadoop104 hadoop-3.1.2]$ mkdir input
- 将Hadoop的xml配置文件复制到input
[zpark@hadoop104 hadoop-3.1.2]$ cp etc/hadoop/*.xml input
- 执行share目录下的MapReduce程序
[zpark@hadoop104 hadoop-3.1.2]$ bin/hadoop jar
share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.2.jar grep input output 'dfs[a-z.]+'
- 查看输出结果
[zpark@hadoop104 hadoop-3.1.2]$ cat output/*
6.1.2 官方WordCount案例
- 创建在hadoop-3.1.2文件下面创建一个wcinput文件夹
[zpark@hadoop104 hadoop-3.1.2]$ mkdir wcinput
- 在wcinput文件下创建一个wc.input文件
[zpark@hadoop104 hadoop-3.1.2]$ cd wcinput
[zpark@hadoop104 wcinput]$ touch wc.input
- 编辑wc.input文件
[zpark@hadoop104 wcinput]$ vi wc.input
在文件中输入如下内容
hadoop yarn
hadoop mapreduce
zhangyong
zhangyong
保存退出::wq
4. 回到Hadoop目录/opt/module/hadoop-3.1.2
5. 执行程序
[zpark@hadoop104 hadoop-3.1.2]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.2.jar wordcount wcinput wcoutput
- 查看结果
[zpark@hadoop104 hadoop-3.1.2]$ cat wcoutput/part-r-00000
zhangyong 2
hadoop 2
mapreduce 1
yarn 1
6.2伪分布式运行模式
6.2.1 启动HDFS并运行MapReduce程序
- 分析
(1)配置集群
(2)启动、测试集群增、删、查
(3)执行WordCount案例 - 执行步骤
(1)配置集群
(a)配置:hadoop-env.sh
Linux系统中获取JDK的安装路径:
[zpark@hadoop104 ~]# echo $JAVA_HOME
/opt/module/jdk1.8.0_181
修改JAVA_HOME 路径:
export JAVA_HOME=/opt/module/jdk1.8.0_181
(b)配置:core-site.xml
<!-- 指定HDFS中NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop104:9000</value>
</property>
<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>