【3.2】Hadoop运行模式之（伪分布式运行模式）

最新推荐文章于 2022-10-24 21:48:12 发布

Data跳动

最新推荐文章于 2022-10-24 21:48:12 发布

阅读量204

点赞数

本文链接：https://blog.csdn.net/weixin_43958974/article/details/104302573

版权

一、启动HDFS并运行MapReduce程序

配置集群
（1）配置：hadoop.env.sh

（2）配置 core-site.xml

（3）配置 hdfs-site.xml
启动集群
（1）格式化 NameNode（第一次启动时格式化，以后就不要总格式化）

（2）启动 NameNode

（3）启动 DataNode
查看集群
(1) 查看是否启动成功

注意：jps是 JDK中的命令不是 Linux命令。不安装 JDK不能使用 jps
(2) web端查看 HDFS文件系统
http://192.168.1.101:50070/dfshealth.html#tab-overview
若不能登陆，检查下防火墙是否关闭。
具体参考如下博文
https://www.cnblogs.com/zlslch/p/6604189.html
（3）思考：为什么不能一直格式化NameNode，格式化 NameNode要注意什么
格式化 NameNode 会产生新的集群 id,导致 NameNode 和 DataNode 的集群 id 不一致，集群找不到已往数据。所以格式NameNode时，一定要先删除data数据和 log日志，然后再格式化 NameNode。
操作集群
（1）在 HDFS文件系统上创建一个 input文件夹
（2）将测试文件内容上传到文件系统上

（3）查看上传的文件是否正确
Web端查看

（4）运行 MapReduce程序
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/atguigu/input/ /user/atguigu/output
（5）查看输出结果
bin/hdfs dfs -cat /user/atguigu/p*
（6）将测试文件内容下载到本地
hdfs dfs -get /user/atguigu/output/part-r-00000 ./wcoutput/
注意：本地的wcoutput中不存在part-r-00000，否则下载后保存不到wcoutput中去。
（7）删除输出结果
hdfs dfs -rm -r /user/atguigu/output

二、启动YARN并运行MapReduce程序

配置集群
（1）配置 yarn-env.sh
配置一下JAVA_HOME：

（2）配置 yarn-site.xml

（3）配置 mapred-env.sh
配置JAVA_HOME

（4）配置 (对 mapred-site.xml.template重新命名为 ) mapred-site.xml
启动集群
（1）启动前必须保证 NameNode和 DataNode已经启动
（2）启动 ResourceManager

（3）启动 NodeManager
集群操作
（1）YARN的浏览器页面查看
http://hadoop101:8088/cluster
（2）删除文件系统上的 output文件
（3）执行 MapReduce程序

（4）查看运行结果

web端：

三、配置历史服务器

为了查看程序的历史运行情况，需要配置一下历史服务器。具体

配置mapred-site.xml
启动历史服务器
查看历史服务器是否启动
查看JobHistory
http://hadoop101:19888/jobhistory

四、配置日志的聚集

日志聚集概念：应用运行完成以后，将程序运行日志信息上传到 HDFS系统上。
日志聚集功能好处:可以方便的查看到程序运行详情，方便开发调试。
注意：开启日志聚集功能需要重新启动 NodeManager 、 ResourceManager和
HistoryManager。

配置yarn-site.xml
关闭NodeManager、ResourceManager和HistoryManager
启动NodeManager、ResourceManager和HistoryManager
删除HDFS上已经存在的输出文件
执行WordCount程序
查看日志
http://hadoop101:19888/jobhistory
(1) job history
(2) job运行情况

(3)查看日志

五、配置文件说明

Hadoop配置文件分两类：默认配置文件和自定义配置文件，只有用户想修改某一默认
配置值时，才需要修改自定义配置文件，更改相应属性值。

默认配置文件
自定义配置文件
core-site.xml、 hdfs-site.xml、 yarn-site.xml、 mapred-site.xml四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上用户可以根据项目需求重新进行修改配置。

笔记总结：
在这里插入图片描述

Data跳动

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【3.2】Hadoop运行模式之（伪分布式运行模式）

一、启动HDFS并运行MapReduce程序配置集群启动集群查看集群操作集群二、启动YARN并运行MapReduce程序配置集群启动集群集群操作三、配置历史服务器配置mapred-site.xml启动历史服务器查看历史服务器是否启动查看JobHistory四、配置日志的聚集配置yarn-site.xml...
复制链接

扫一扫