HDFS-HA 自动故障转移工作机制
自动故障转移为 HDFS 部署增加了两个新组件:ZooKeeper 和 ZKFailoverController(ZKFC)进程,如图所示。ZooKeeper 是维护少量协调数据,通知客户端这些数据的改变和监视客户端故障的高可用服务。
HDFS-HA 自动故障转移的集群规划
hadoop102 | hadoop103 | hadoop104 |
---|---|---|
NameNode | NameNode | NameNode |
JournalNode | JournalNode | JournalNode |
DataNode | DataNode | DataNode |
Zookeeper | Zookeeper | Zookeeper |
ZKFC | ZKFC | ZKFC |
配置 HDFS-HA 自动故障转移
1)具体配置
(1)在 hdfs-site.xml 中增加
<?xml version="1.0" encoding="utf-8"?>
<!-- 启用 nn 故障自动转移 -->
<property>
<name>dfs.ha.automatic-failover.enabled</name>
<value>true</value>
</property>
(2)在 core-site.xml 文件中增加
<?xml version="1.0" encoding="utf-8"?>
<!-- 指定 zkfc 要连接的 zkServer 地址 -->
<property>
<name>ha.zookeeper.quorum</name>
<value>hadoop102:2181,hadoop103:2181,hadoop104:2181</value>
</property>
(3)修改后分发配置文件
[root@hadoop102 etc]$ pwd
/opt/ha/hadoop-3.1.3/etc
[root@hadoop102 etc]$ xsync hadoop/
2)启动
(1)关闭所有 HDFS 服务:
[root@hadoop102 ~]$ stop-dfs.sh
(2)启动 Zookeeper 集群:
[root@hadoop102 ~]$ zkServer.sh start
[root@hadoop103 ~]$ zkServer.sh start
[root@hadoop104 ~]$ zkServer.sh start
(3)启动 Zookeeper 以后,然后再初始化 HA 在 Zookeeper 中状态:
[root@hadoop102 ~]$ hdfs zkfc -formatZK
(4)启动 HDFS 服务:
[root@hadoop102 ~]$ start-dfs.sh
启动之前,查看start-dfs.sh 和 stop-dfs.sh 里面 确保配置如下内容,方可启动,否则会报错
TANODE_USER=root
HDFS_JOURNALNODE_USER=root
HADOOP_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root
HDFS_ZKFC_USER=root
(5)可以去 zkCli.sh 客户端查看 Namenode 选举锁节点内容:
[zk: localhost:2181(CONNECTED) 7] get -s
/hadoop-ha/mycluster/ActiveStandbyElectorLock
myclusternn2 hadoop103 �>(�>
cZxid = 0x10000000b
ctime = Tue Jul 14 17:00:13 CST 2020
mZxid = 0x10000000b
mtime = Tue Jul 14 17:00:13 CST 2020
pZxid = 0x10000000b
cversion = 0
dataVersion = 0
aclVersion = 0
ephemeralOwner = 0x40000da2eb70000
dataLength = 33
numChildren = 0
如下图:
3)验证
(1)将 Active NameNode 进程 kill,查看网页端三台 Namenode 的状态变化
[root@hadoop102 ~]$ kill -9 namenode 的进程 id