伪分布式安装部署（运行MapReduce程序）

最新推荐文章于 2024-04-21 20:17:19 发布

全栈ing小甘

最新推荐文章于 2024-04-21 20:17:19 发布

阅读量992

点赞数 12

分类专栏：大数据文章标签： hadoop mapreduce 大数据学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_58808338/article/details/123835049

版权

大数据专栏收录该内容

18 篇文章 4 订阅

订阅专栏

目录

启动HDFS并运行MapReduce程序

1. 配置集群

（a）配置：hadoop-env.sh

（b）配置：core-site.xml

（c）配置：hdfs-site.xml

（a）格式化NameNode

（b）启动NameNode

（c）启动DataNode

（a）查看是否启动成功

（b）web端查看HDFS文件系统

（c）查看产生的Log日志

（d）思考：为什么不能一直格式化NameNode，格式化NameNode要注意什么？

4. 操作集群

（a）在HDFS文件系统上创建一个input目录

（b）将测试文件内容上传到文件系统上

（c）查看上传的文件是否正确

（d）运行MapReduce程序

（e）查看输出结果

（f）将测试文件内容下载到本地

（g）删除输出结果

启动HDFS并运行MapReduce程序

1. 配置集群

（a）配置：hadoop-env.sh

Linux系统中获取JDK的安装路径：

echo $JAVA_HOME

修改JAVA_HOME 路径：

把这一行代码改成下面的代码，前一半都是export JAVA_HOME=，很好找。

export JAVA_HOME=/opt/module/jdk1.8.0_202

（b）配置：core-site.xml

指定Hadoop运行时产生文件的存储目录

<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop101:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>

在下面两个箭头之间配置上面代码

（c）配置：hdfs-site.xml

指定HDFS副本的数量

<property>
<name>dfs.replication</name>
<value>1</value>
</property>

2.启动集群

（a）格式化NameNode

（第一次启动时格式化，以后就不要总格式化）,就是安装文件系统

hdfs namenode -format

出现如下界面，说明格式化namenode成功

这个时候，在hadoop主目录中出现了data目录

（b）启动NameNode

hadoop-daemon.sh start namenode

（c）启动DataNode

hadoop-daemon.sh start datanode

3.查看集群

（a）查看是否启动成功

jps

出现了这两个进程表示hdfs配置成功了

注意：jps是JDK中的命令，不是Linux命令。不安装JDK不能使用jps

（b）web端查看HDFS文件系统

Namenode informationhttp://hadoop101:50070/dfshealth.html#tab-overview

（c）查看产生的Log日志

说明：在使用Hadoop过程中，如果遇到某些异常，导致Hadoop不可用，或其它问题，则可以通过查询Hadoop的日志文件获取错误信息。

里面就是前面配置出来的东西

（d）思考：为什么不能一直格式化NameNode，格式化NameNode要注意什么？

注意：格式化NameNode，会产生新的集群id,导致NameNode和DataNode的集群id不一致，集群找不到已往数据。所以，格式化NameNode时，一定要先删除$HADOOP_HOME/data目录及下面的所有内容，然后再格式化NameNode。由于NameNode被格式化，所有关于数据存储的元素信息被重置，因此，原来在HDFS上存储的数据也就不能用了。

4. 操作集群

本地运行时，是将文件放在本地磁盘中，如果文件较大，需要将文件放在HDFS（分布式文件系统上）

（a）在HDFS文件系统上创建一个input目录

hdfs dfs -mkdir -p /user/ytsky/input

浏览文件系统，确认是否创建成功

（b）将测试文件内容上传到文件系统上

用上次本地运行模式创建过的文件

使用命令将文件wc.input上传到 HDFS中

hdfs dfs -put wcinput/wc.input /user/ytsky/input

（c）查看上传的文件是否正确

hdfs dfs -ls /user/ytsky/input

hdfs dfs -cat /user/ytsky/input/wc.input

已将需要分析的数据加载进了HDFS中

（d）运行MapReduce程序

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/ytsky/input /user/ytsky/output

该条命令执行完后，会在文件系统上创建output目录，目录中存放的就是分析结果

（e）查看输出结果

命令行查看，下面两个都可以

hdfs dfs -cat /user/ytsky/output/*

hdfs dfs -cat /user/ytsky/output/part-r-00000

（f）将测试文件内容下载到本地

hdfs dfs -get /user/ytsky/output/part-r-00000 ./wcoutput/

我显示已存在，是本地运行模式的时候已经保存了

（g）删除输出结果

hdfs dfs -rm -r /user/ytsky/output

如果不删除，下次运行这个案例的时候就会报错，所以我们用命令行删除输出结果

以上就是在伪分布式集群模式下运行mapreduce运行结果。

全栈ing小甘

关注

12
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
12
评论
伪分布式安装部署（运行MapReduce程序）

启动HDFS并运行MapReduce程序1. 配置集群（a）配置：hadoop-env.shLinux系统中获取JDK的安装路径：[ytsky@ hadoop101 ~]# echo $JAVA_HOME /opt/module/jdk1.8.0_202
复制链接

扫一扫

专栏目录

评论 12

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

全栈ing小甘 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。