安装Linux以及搭建Hadoop3.1.2集群（7）——完全分布式集群配置

最新推荐文章于 2022-07-11 09:31:04 发布

张反水

最新推荐文章于 2022-07-11 09:31:04 发布

阅读量298

点赞数

分类专栏： # Hadoop 大数据文章标签： hadoop hdfs 大数据分布式

本文链接：https://blog.csdn.net/zy13765287861/article/details/104602508

版权

大数据同时被 2 个专栏收录

34 篇文章 0 订阅

订阅专栏

Hadoop

28 篇文章 0 订阅

订阅专栏

第八章：完全分布式集群配置

8.1 环境准备以及写分发集群脚本

8.1.1 虚拟机准备

	主机	从机	从机
主机名	hadoop104	hadoop105	hadoop106
hostname	hadoop104	hadoop105	hadoop106
IP地址	192.168.153.104	192.168.153.105	192.168.153.106

8.1.2 编写集群分发脚本xsync

scp（secure copy）安全拷贝
（1）scp定义：
scp可以实现服务器与服务器之间的数据拷贝。（from server1 to server2）
（2）基本语法

scp -r $pdir/$fname $user@hadoop$host:$pdir/$fname

命令递归要拷贝的文件路径/名称目的用户@主机:目的路径/名称
（3）案例实操
（a）在hadoop104上，将hadoop104中/opt/module目录下的软件拷贝到hadoop105上。

[zpark@hadoop104 /]$ scp -r hadoop104:/opt/module  hadoop105:/opt/module

（b）在hadoop106上，将hadoop104服务器上的/opt/module目录下的软件拷贝到hadoop106上。

[zpark@hadoop106 opt]$sudo scp -r hadoop104:/opt/module hadoop106:/opt/module

（c）在hadoop103上操作将hadoop104中/opt/module目录下的软件拷贝到hadoop104上。

[zpark@hadoop103 opt]$ scp -r zpark@hadoop104:/opt/module root@hadoop104:/opt/module

注意：拷贝过来的/opt/module目录，别忘了在hadoop104、hadoop105、hadoop106上修改所有文件的，所有者和所有者组。

sudo chown zpark:zpark -R /opt/module

（d）将hadoop104中/etc/profile文件拷贝到hadoop102的/etc/profile上。

[zpark@hadoop104 ~]$ sudo scp hadoop104:/etc/profile

hadoop102:/etc/profile
（e）将hadoop104中/etc/profile文件拷贝到hadoop103的/etc/profile上。

[zpark@hadoop104 ~]$ sudo scp hadoop104:/etc/profile

hadoop103:/etc/profile
（f）将hadoop104中/etc/profile文件拷贝到hadoop104的/etc/profile上。

[zpark@hadoop104 ~]$ sudo scp hadoop104:/etc/profile

hadoop104:/etc/profile
注意：拷贝过来的配置文件别忘了source一下/etc/profile
2. rsync 远程同步工具
rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
rsync和scp区别：用rsync做文件的复制要比scp的速度快，rsync只对差异文件做更新。scp是把所有文件都复制过去。
（1）基本语法

rsync -av $pdir/$fname $user@hadoop$host:$pdir/$fname

命令选项参数要拷贝的文件路径/名称目的用户@主机:目的路径/名称
选项参数说明

选项	功能
-a	归档拷贝
-v	显示复制过程

（2）案例实操
（a）把hadoop104机器上的/opt/software目录同步到hadoop102服务器的root用户下的/opt/目录

[zpark@hadoop104 opt]$ rsync -av /opt/software/

hadoop102:/opt/software
3. xsync集群分发脚本
（1）需求：循环复制文件到所有节点的相同目录下
（2）需求分析：
（a）rsync命令原始拷贝：

rsync -av /opt/module  root@hadoop103:/opt/

（b）期望脚本：
xsync要同步的文件名称
（c）说明：在/home/zpark/bin这个目录下存放的脚本，zpark用户可以在系统任何地方直接执行。
（3）脚本实现
（a）在根目录下创建xsync目录，并在bin目录下xsync创建文件，文件内容如下：

[zpark@hadoop102 ~]$ vi xsync

在该文件中编写如下代码

#!/bin/bash
#1 获取输入参数个数，如果没有参数，直接退出
pcount=$#
if ((pcount==0)); then
echo no args;
exit;
fi

#2 获取文件名称
p1=$1
fname=`basename $p1`
echo fname=$fname

#3 获取上级目录到绝对路径
pdir=`cd -P $(dirname $p1); pwd`
echo pdir=$pdir

#4 获取当前用户名称
user=`whoami`

#5 循环
for((host=103; host<105; host++)); do
        echo ------------------- hadoop$host --------------
        rsync -av $pdir/$fname $user@hadoop$host:$pdir
done

（b）修改脚本 xsync 具有执行权限

[zpark@hadoop102 ~]$ chmod +x xsync

在这里插入图片描述
（c）将xsync分发到hadoop105、hadoop106

（d）查看hadoop105、hadoop106

（e）把Hadoop3.1.2拷贝到hadoop105、hadoop106里

[zhangyong@hadoop104 module]$ xsync hadoop-3.1.2/

在这里插入图片描述
（f）把 jdk1.8.0_181拷贝到hadoop105、hadoop106里

[zhangyong@hadoop104 module]$ xsync jdk1.8.0_181/

在这里插入图片描述
（g）把配置文件拷贝到hadoop105、hadoop106里

查看hadoop105,hadoop106是否配置好，如果好，证明上述配置正确，如果没有请一步一步查看

8.2集群配置

集群部署规划

	hadoop104	hadoop105	hadoop106
HDFS	NameNode DataNode	DataNode	SecondaryName NodeDataNode
YARN	NodeManager	ResourceManager NodeManager	NodeManager

配置集群
（1）核心配置文件
配置core-site.xml

[zhangyong@hadoop104 hadoop]$ vi core-site.xml

在该文件中编写如下配置

<!-- 指定HDFS中NameNode的地址 -->
<property>
	 <name>fs.defaultFS</name>
     <value>hdfs://hadoop104:9000</value>
</property>
<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
	<name>hadoop.tmp.dir</name>
	<value>/opt/module/hadoop-3.1.2/data/tmp</value>
</property>

（2）HDFS配置文件

配置hadoop-env.sh

[zhangyong@hadoop104 hadoop]$ vi hadoop-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_181

配置hdfs-site.xml

[zhangyong@hadoop104 hadoop]$ vi hdfs-site.xml

在该文件中编写如下配置

<property>
		<name>dfs.replication</name>
		<value>3</value>
</property>
<!-- 指定Hadoop辅助名称节点主机配置 -->
<property>
      <name>dfs.namenode.secondary.http-address</name>
      <value>hadoop106:50090</value>
</property>

（3）YARN配置文件
配置yarn-env.sh

[zhangyong@hadoop104 hadoop]$ vi yarn-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_181

配置yarn-site.xml

[zhangyong@hadoop104 hadoop]$ vi yarn-site.xml

在该文件中增加如下配置

<!-- Reducer获取数据的方式 -->
<property>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
</property>
<!-- 指定YARN的ResourceManager的地址 -->
<property>
		<name>yarn.resourcemanager.hostname</name>
		<value>hadoop105</value>
</property>

（4）MapReduce配置文件
配置mapred-env.sh

[zhangyong@hadoop104 hadoop]$ vi mapred-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_181

配置mapred-site.xml

[zhangyong@hadoop104 hadoop]$ vi mapred-site.xml

在该文件中增加如下配置

<!-- 指定MR运行在Yarn上 -->
<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
</property>

3．在集群上分发配置好的Hadoop配置文件

[zhangyong@hadoop104 hadoop]$ xsync etc/

在这里插入图片描述
4．查看文件分发情况

[zhangyong@hadoop103 hadoop]$ cat /opt/module/hadoop-3.1.2/etc/hadoop/core-site.xml

8.3 集群单点启动

（1）如果集群是第一次启动，需要格式化NameNode

[zhangyong@hadoop104 hadoop-3.1.2]$ hdfs namenode -format

（2）在hadoop102上启动NameNode

[zhangyong@hadoop104 hadoop-3.1.2]$ hadoop-daemon.sh start namenode
[zhangyong@hadoop104 hadoop-3.1.2]$ jps
3461 NameNode

（3）在hadoop104、hadoop105以及hadoop106上分别启动DataNode

[zhangyong@hadoop104 hadoop-3.1.2]$ hadoop-daemon.sh start datanode
[zhangyong@hadoop104 hadoop-3.1.2]$ jps
3461 NameNode
3608 Jps
3561 DataNode
[zhangyong@hadoop105 hadoop-3.1.2]$ hadoop-daemon.sh start datanode
[zhangyong@hadoop105 hadoop-3.1.2]$ jps
3190 DataNode
3279 Jps
[zhangyong@hadoop106 hadoop-3.1.2]$ hadoop-daemon.sh start datanode
[zhangyong@hhadoop106 hadoop-3.1.2]$ jps
3237 Jps
3163 DataNode