HDFS-HA集群配置

最新推荐文章于 2024-05-10 23:42:23 发布

zhanglei_16

最新推荐文章于 2024-05-10 23:42:23 发布

阅读量505

点赞数

分类专栏： hadoop

本文链接：https://blog.csdn.net/zhanglei_16/article/details/94292099

版权

hadoop 专栏收录该内容

31 篇文章 0 订阅

订阅专栏

HDFS-HA集群配置

环境：
192.168.1.31 bigdata31
192.168.1.32 bigdata32
192.168.1.33 bigdata33

一：环境准备
1）修改IP
2）修改主机名及主机名和IP地址的映射

vi /etc/hostname
bigdata31
3）关闭防火墙

systemctl stop firewalld
systemctl disable firewalld
4）ssh免密登录

ssh-keygen -t rsa
ssh-copy-id -i /root/.ssh/id_rsa.pub root@192.168.1.31
ssh-copy-id -i /root/.ssh/id_rsa.pub root@192.168.1.32
ssh-copy-id -i /root/.ssh/id_rsa.pub root@192.168.1.33
5）安装JDK，配置环境变量等

vi /etc/profile
export JAVA_HOME=/usr/local/jdk1.8.0_144
export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin

二：规划集群
bigdata31 bigdata32 bigdata33
NameNode(Master) NameNode(standby)
JournalNode JournalNode JournalNode
DataNode DataNode DataNode
ZK ZK ZK
Zkfc zkfc
ResourceManager
NodeManager NodeManager NodeManager

三：配置Zookeeper集群
1：集群规划
在bigdata31、bigdata32、bigdata33三个节点上部署Zookeeper。

:2：解压安装
（1）解压zookeeper安装包到/opt/mod/目录下
tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/mod/
（2）在/opt/mod/zookeeper-3.4.10/这个目录下创建zkData
mkdir -p /opt/mod/zookeeper-3.4.10/zkData
（3）重命名/opt/mod/zookeeper-3.4.10/conf这个目录下的zoo_sample.cfg为zoo.cfg
cp zoo_sample.cfg zoo.cfg

3：配置zoo.cfg文件
(1)具体配置
dataDir=/opt/mod/zookeeper-3.4.10/zkData
增加如下配置
#######################cluster##########################
server.1=bigdata31:2888:3888
server.2=bigdata32:2888:3888
server.3=bigdata33:2888:3888

(2)配置参数解读
Server.A=B:C:D。
A是一个数字，表示这个是第几号服务器；
B是这个服务器的ip地址；
C是这个服务器与集群中的Leader服务器交换信息的端口；
D是万一集群中的Leader服务器挂了，需要一个端口来重新进行选举，选出一个新的Leader，而这个端口就是用来执行选举时服务器相互通信的端口。
集群模式下配置一个文件myid，这个文件在dataDir目录下，这个文件里面有一个数据就是A的值，Zookeeper启动时读取此文件，拿到里面的数据与zoo.cfg里面的配置信息比较从而判断到底是哪个server。

4：集群操作
(1) 在/opt/mod/zookeeper-3.4.10/zkData目录下创建一个myid的文件
touch myid
添加myid文件，注意一定要在linux里面创建，在notepad++里面很可能乱码
(2) 编辑myid文件
vi myid
在文件中添加与server对应的编号：1
(3) 拷贝配置好的zookeeper到其他机器上
scp -r zookeeper-3.4.10/ root@bigdata32:/opt/mod/
scp -r zookeeper-3.4.10/ root@bigdata33:/opt/mod/
并分别修改myid文件中内容为2、3
(4) 配置环境变量
vi /etc/profile
export ZK_HOME=/opt/mod/zookeeper-3.4.10
export PATH=$PATH:$ZK_HOME/bin

source /etc/profile

(5)分别顺序启动zookeeper
/opt/mod/zookeeper-3.4.10/bin/zkServer.sh start

(6) 查看状态
/opt/mod/zookeeper-3.4.10/bin/zkServer.sh status
JMX enabled by default
Using config: /opt/mod/zookeeper-3.4.10/bin/../conf/zoo.cfg
Mode: follower
节点1、节点3的状态都是follower，节点2的状态是leader

四：配置HDFS-HA集群
1：官方地址：http://hadoop.apache.org/
2：将/opt下的 hadoop-2.8.4拷贝到/opt/mod目录下
mv hadoop-2.8.4 /opt/mod/

3：配置hadoop-env.sh
cd /opt/mod/ha/hadoop-2.8.4/etc/hadoop
export JAVA_HOME=/usr/local/jdk1.8.0_144

5：配置core-site.xml
<configuration>

<property>
<name>fs.defaultFS</name>
<value>hdfs://mycluster</value>
</property>

<property>
           <name>hadoop.tmp.dir</name>
           <value>/opt/mod/hadoop-2.8.4/data</value>
       </property>
</configuration>

   6：配置hdfs-site.xml
<configuration>
   
   <property>
       <name>dfs.nameservices</name>
       <value>mycluster</value>
   </property>

<property>
       <name>dfs.ha.namenodes.mycluster</name>
       <value>nn1,nn2</value>
   </property>

<property>
       <name>dfs.namenode.rpc-address.mycluster.nn1</name>
       <value>bigdata31:9000</value>
   </property>

<property>
       <name>dfs.namenode.rpc-address.mycluster.nn2</name>
       <value>bigdata32:9000</value>
   </property>

<property>
       <name>dfs.namenode.http-address.mycluster.nn1</name>
       <value>bigdata31:50070</value>
   </property>

<property>
       <name>dfs.namenode.http-address.mycluster.nn2</name>
       <value>bigdata32:50070</value>
   </property>

<property>
       <name>dfs.namenode.shared.edits.dir</name>
   <value>qjournal://bigdata31:8485;bigdata32:8485;bigdata33:8485/mycluster</value>
   </property>

<property>
       <name>dfs.ha.fencing.methods</name>
       <value>sshfence</value>
   </property>

<property>
       <name>dfs.ha.fencing.ssh.private-key-files</name>
       <value>/root/.ssh/id_rsa</value>
   </property>

<property>
       <name>dfs.journalnode.edits.dir</name>
       <value>/opt/mod/hadoop-2.8.4/data/jn</value>
   </property>

<property>
       <name>dfs.permissions.enable</name>
       <value>false</value>
   </property>

<property>
       <name>dfs.client.failover.proxy.provider.mycluster</name>
   <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
   </property>
</configuration>

7：拷贝配置好的hadoop环境到其他节点
scp -r ha bigdata32:/opt/mod/
scp -r ha bigdata33:/opt/mod/

五：启动HDFS-HA集群
1：在各个JournalNode节点上，输入以下命令启动journalnode服务：
cd /opt/mod/ha/hadoop-2.8.4
sbin/hadoop-daemon.sh start journalnode
2：在[nn1]上，对其进行格式化，并启动：
bin/hdfs namenode -format
sbin/hadoop-daemon.sh start namenode
3：在[nn2]上，同步nn1的元数据信息：
bin/hdfs namenode -bootstrapStandby
4：启动[nn2]：
sbin/hadoop-daemon.sh start namenode

5：查看web页面显示

6：启动所有datanode
sbin/hadoop-daemons.sh start datanode
7：将[nn1]切换为Active
bin/hdfs haadmin -transitionToActive nn1
8：查看是否Active
bin/hdfs haadmin -getServiceState nn1

六：配置HDFS-HA自动故障转移
1：具体配置
   （1）在hdfs-site.xml中增加
<property>
   <name>dfs.ha.automatic-failover.enabled</name>
   <value>true</value>
</property>

   （2）在core-site.xml文件中增加
<property>
   <name>ha.zookeeper.quorum</name>
   <value>bigdata31:2181,bigdata32:2181,bigdata33:2181</value>
</property>

Hadoop的ha配置自动故障转移后，杀死active所在的namenode，Standby所在的namenode不会自动切换为active状态。
分析错误：查看zkcf的log日志
发现错误日志：
2019-05-05 03:59:38,306 WARN org.apache.hadoop.ha.SshFenceByTcpPort: PATH=$PATH:/sbin:/usr/sbin fuser -v -k -n tcp 9000 via ssh: bash: fuser: command not found
解决错误：这个原因是Linux系统没有fuser命令
导致在HA进行主备切换是执行fuser失败了
通过yum命令安装：yum -y install psmisc
安装完成再次测试，即可切换成功。

2：启动
   （1）关闭所有HDFS、datanode服务,Zookeeper,
       sbin/stop-dfs.sh
       sbin/hadoop-daemons.sh stop datanode
       bin/zkServer.sh stop

   （2）启动Zookeeper集群：
       bin/zkServer.sh start
   （3）初始化HA在Zookeeper中状态：
       bin/hdfs zkfc -formatZK
   （4）启动HDFS服务：
       sbin/start-dfs.sh
   （5）在各个NameNode节点上启动DFSZK Failover Controller，先在哪台机器启动，哪个机器的NameNode就是Active NameNode
       sbin/hadoop-daemon.sh start zkfc

       jps查看状态，启动还未启动的datanode
       sbin/hadoop-daemons.sh start datanode

3：验证
   （1）将Active NameNode进程kill
       kill -9 namenode的进程id，然后可以在web页面查看状态，可以看到原来的standby已经变成active
       在重新启动kill的namenode。可以通过web页面看到原来的active变成standby了。

   （2）将Active NameNode机器断开网络
       service network stop

七：YARN-HA配置

1：官方文档:

http://hadoop.apache.org/docs/r2.8.4/hadoop-yarn/hadoop-yarn-site/ResourceManagerHA.html

2：YARN-HA工作机制

3：配置YARN-HA集群
(0)环境准备
(1)修改IP
(2)修改主机名及主机名和IP地址的映射
(3)关闭防火墙
(4)ssh免密登录
(5)安装JDK，配置环境变量等
(6)配置Zookeeper集群

4：规划集群
bigdata31                 bigdata32                bigdata33
NameNode               NameNode
JournalNode JournalNode               JournalNode
DataNode DataNode               DataNode
ZK ZK ZK
ResourceManager     ResourceManager
NodeManager           NodeManager NodeManager

5：具体配置

(1) yarn-site.xml

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

<property>
<name>yarn.resourcemanager.ha.enabled</name>
<value>true</value>
</property>


<property>
<name>yarn.resourcemanager.cluster-id</name>
<value>cluster-yarn1</value>
</property>

<property>
<name>yarn.resourcemanager.ha.rm-ids</name>
<value>rm1,rm2</value>
</property>

<property>
<name>yarn.resourcemanager.hostname.rm1</name>
<value>bigdata31</value>
</property>

<property>
<name>yarn.resourcemanager.hostname.rm2</name>
<value>bigdata32</value>
</property>


<property>
<name>yarn.resourcemanager.zk-address</name>
<value>bigdata31:2181,bigdata32:2181,bigdata33:2181</value>
</property>

<property>
<name>yarn.resourcemanager.recovery.enabled</name>
<value>true</value>
</property>


<property>
<name>yarn.resourcemanager.store.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
</property>

（2）同步更新其他节点的配置信息

6：启动hdfs，上面启动了，可以跳过
（1）在各个JournalNode节点上，输入以下命令启动journalnode服务：
   sbin/hadoop-daemon.sh start journalnode
（2）在[nn1]上，对其进行格式化，并启动：
   bin/hdfs namenode -format
   sbin/hadoop-daemon.sh start namenode
（3）在[nn2]上，同步nn1的元数据信息：
   bin/hdfs namenode -bootstrapStandby
（4）启动[nn2]：
   sbin/hadoop-daemon.sh start namenode
（5）启动所有datanode
   sbin/hadoop-daemons.sh start datanode
（6）将[nn1]切换为Active
   bin/hdfs haadmin -transitionToActive nn1

7：启动yarn
（1）在bigdata32中执行：
sbin/start-yarn.sh
（2）在bigdata31中执行：
sbin/yarn-daemon.sh start resourcemanager

   启动剩下的nodemanager，并用jps查看状态
   sbin/yarn-daemon.sh start nodemanager
（3）查看服务状态（注意：yarn自动切换需要稍等下大概5到10秒，就切换成功）
bin/yarn rmadmin -getServiceState rm1
   standby

   bin/yarn rmadmin -getServiceState rm2
active

zhanglei_16

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
HDFS-HA集群配置

HDFS-HA集群配置环境：192.168.1.31 bigdata31192.168.1.32 bigdata32192.168.1.33 bigdata33一：环境准备 1）修改IP 2）修改主机名及主机名和IP地址的映射 vi /etc/hostname bigdata31 3）关闭防火墙 ...
复制链接

扫一扫

专栏目录