大数据开发——hadoop、spark（5）

最新推荐文章于 2024-11-17 23:54:03 发布

weixin_43978029

最新推荐文章于 2024-11-17 23:54:03 发布

阅读量182

点赞数

分类专栏：大数据文章标签： hadoop spark

本文链接：https://blog.csdn.net/weixin_43978029/article/details/106351941

版权

大数据专栏收录该内容

5 篇文章 0 订阅

订阅专栏

大数据开发——hadoop、spark（5）

大数据第五周
1配置hadoop集群
1.1配置环境
（1）配置hadoop-env.sh
在这里插入图片描述
找到这句，把JAVA_HOME写进来，如下图：

注意：是修改。
（2）配置yarn-env.sh
找到如下图位置：

将JAVA_HOME变量写在if前面，例如：

1.2 配置核心配置文件core-site.xml

fs.defaultFS
hdfs://master:9000

hadoop.tmp.dir
/home/user1/hadoopdata

1.3配置hdfs-site.xml

dfs.replication
1

dfs.namenode.secondary.http-address
master:9001

说明：本文件如上的配置不可以用于实际使用。原因：（1）文件副本存储量是1，对文件而言毫无安全性可言；（2）second namenode是作为namenode失效后的后备使用的，我们当前的配置是把second namenode放到了和namenode相同的物理节点上，这样毫无意义，因为：当namenode失效时，second namenode也一并失效了。
我们这样配置是因为条件所限和仅仅是为了实验。
1.4配置yarn-site.xml

yarn.nodemanager.aux-services
mapreduce_shuffle

yarn.nodemanager.aux-services.mapreduce_shuffle.class
org.apache.hadoop.mapred.ShuffleHandler

yarn.resourcemanager.address
master:8032

yarn.resourcemanager.scheduler.address
master:8030

yarn.resourcemanager.resource-tracker.address
master:8035

yarn.resourcemanager.admin.address
master:8033

yarn.resourcemanager.webapp.address
master:8088

1.5配置mapred-site.xml
先将模板文件存成正常文件：cp mapred-site.xml.template mapred-site.xml

mapreduce.framework.name
yarn

1.6 配置slaves文件
把文件原内容删除，然后添加
slave0
slave1
2.拷贝hadoop文件包到其他节点
命令是：scp –r Hadoop-2.7 slave0:~，最后一个是波浪号。
命令是：scp –r Hadoop-2.7 slave1:~，最后一个是波浪号。
3.格式化hdfs
首先按照配置文件，在namenode上建立文件夹，我们配置的是/home/user1/hadoopdata。
在这里插入图片描述
然后，在namenode上执行：
hadoop namenode -format
如果看到如下内容，说明格式化成功了。

格式化不能多次执行，如果不成功，需要清空文件夹，才能再次执行格式化。
4.启动集群
启动命令：start-all.sh
启动后用jps查看java进程，namenode有4个，datanode有3个。如下图：
在这里插入图片描述

关闭命令：stop-all.sh
注意：关闭linux之前，务必先关闭集群，否则下次启动集群时容易出错。