【3.3】Hadoop运行模式之（完全分布式运行模式）

最新推荐文章于 2020-09-20 21:14:33 发布

Data跳动

最新推荐文章于 2020-09-20 21:14:33 发布

阅读量169

点赞数 1

文章标签： hadoop

本文链接：https://blog.csdn.net/weixin_43958974/article/details/104389746

版权

分析：在这里插入图片描述

一.虚拟机准备

参考【2】Hadoop 运行环境搭建

hadoop101:   已安装==jdk==，==hadoop==
102~104:没有安装==jdk==，==hadoop==

二.编写集群分发脚本xsync

1. scp安全拷贝
（1）定义：scp可以实现服务器与服务器之间的数据拷贝。
（2）语法：在这里插入图片描述
（3）把Hadoop101中安装的jdk，hadoop分发到102~104
1.）在 hadoop101上，将 hadoop101中 /opt/module目录下的软件拷贝到 hadoop102。
> scp -r /opt/module root@hadoop102:/opt/module
2.）在 hadoop103上将 hadoop101服务器上的 /opt/module目录下的软件拷贝到hadoop103上。
在这里插入图片描述
3.）在 hadoop103上操作将 hadoop101中 /opt/module目录下的软件拷贝到hadoop104上。

注意：拷贝过来的 /opt/module目录别忘了在 hadoop102、 hadoop103、 hadoop104上修改所有文件的，所有者和所有者组。 sudo chown atguigu:atguigu -R /opt/module
（4）将 hadoop101中的配置文件 /etc/profile分发102~104
1.）将 hadoop101中 /etc/profile文件拷贝到 hadoop102的 /etc/profile上
在这里插入图片描述
2.）将 hadoop101中 /etc/profile文件拷贝到 hadoop103的 /etc/profile上
3.）将 hadoop101中 /etc/profile文件拷贝到 hadoop104的 /etc/profile上

注意：拷贝过来的配置文件别忘了 source /etc/profile
2. rsync 远程同步工具
rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
rsync和 scp区别：用 rsync做文件的复制要比 scp的速度快，rsync只对差异文件做更新。 scp是把所有文件都复制过去。

基本语法在这里插入图片描述
3. xsync集群分发脚本

说明：在 /home/atguigu/bin这个目录下存放的脚本， atguigu用）户可以在系统任何地方直接执行。
（1）在 /home/atguigu目录下创建 bin目录，并在 bin目录下创建文件 xsync。
在这里插入图片描述
在xsync文件中填入下列内容：
（2）修改脚本xsync具有执行权限

（3）调用脚本形式 xsync 文件名称

注意：如果将 xsync放到 /home/atguigu/bin目录下仍然不能实现全局使用，可以将 xsync移动到 /usr/local/bin目录下。

三.集群配置

1.集群部署规划
在这里插入图片描述
2.配置集群
（1）核心配置文件
配置core-site.xml
在该文件中编写如下配置：
（2）HDFS配置文件
配置hadoop-env.sh
配置hdfs-site.xml

（3）YARN配置文件
配置yarn-env.sh

配置yarn-site.xml
（4）MapReduce配置文件
配置mapred-env.sh
在这里插入图片描述
配置mapred-site.xml

内容：
3.在集群上分发配置好的 Hadoop配置文件

四.SSH无密登录配置

无密钥配置
home目录下，ls -al即可查看.ssh文件夹。
进入，生成公钥和私钥：

然后敲（三个回车），就会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）。
将公钥拷贝到要免密登录的目标机器上
.ssh 文件夹下（~/.ssh）的文件功能解释

五.群启集群

配置slaves

注意：该文件中添加的内容结尾不允许有空格文件中不允许有空行。
同步所有节点配置文件
如果集群是第一次启动，需要格式化 NameNode
(1)关闭进程jps
（2）删除数据：rm -rf data/ logs/
启动 HDFS

jps可以查看各个节点的进程
启动 YARN

注意：NameNode和 ResourceManger如果不是同一台机器，不能在 NameNode上启动 YARN，应该在 ResouceManager所在的机器上启动 YARN。
Web端查看 SecondaryNameNode
http://hadoop104:50090/status.html
集群基本测试