大数据之Hadoop（本地运行模型、伪分布式运行模式）

最新推荐文章于 2023-07-15 07:54:59 发布

呆萌的小透明

最新推荐文章于 2023-07-15 07:54:59 发布

阅读量261

点赞数

分类专栏：大数据文章标签：大数据 hadoop

本文链接：https://blog.csdn.net/xiekengli8279/article/details/111387080

版权

本文详述了Hadoop的两种运行模式：本地模式和伪分布式模式，包括官方Grep和WordCount案例的实践，以及配置HDFS、YARN、历史服务器和日志聚集的详细步骤。

摘要由CSDN通过智能技术生成

第4章 Hadoop运行模式

Hadoop运行模式包括：本地模式、伪分布模式以及完全分布模式。
Hadoop官方网站：http://hadoop.apache.org/

4.1 本地运行模式

4.1.1 官方Grep案例

1、在hadoop-2.7.2文件夹下面创建一个input文件夹：mkdir input
在这里插入图片描述
2、将 etc/hadoop文件夹下的xml配置文件复制到input：cp etc/hadoop/.xml input

3、执行share目录下的MapReduce程序：hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output ‘dfs[a-z.]+’

4、查看输出结果：cat output/
在这里插入图片描述

4.1.2 官方WordCount案例

1、在hadoop-2.7.2文件夹下面创建一个wcinput文件夹：mkdir wcinput。
在这里插入图片描述
2、在wcinput文件夹下创建一个wc.input文件：touch wc.input

3、编辑wc.input文件：vim wc.input。

4、回到/opt/module/hadoop-2.7.2目录下
5、执行程序：hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput
在这里插入图片描述
6、查看结果：cat wcoutput/part-r-00000

4.2 伪分布式运行模式

4.2.1 启动HDFS并运行MapReduce程序

1、分析
（1）配置集群
（2）启动、测试集群增、删、查
（3）执行WordCount案例
2、执行步骤
（1）配置集群
（a）配置：hadoop-env.sh：Linux系统中获取JDK的安装路径：echo $JAVA_HOME
在这里插入图片描述
修改JAVA_HOME路径：vim etc/hadoop/hadoop-env.sh