一、概述
1、Namenode HA
1)所谓HA(high available),即高可用(7*24小时不中断服务)。
2)实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。
3)Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF)。
4)NameNode主要在以下两个方面影响HDFS集群 NameNode机器发生意外,如宕机,集群将无法使用,直到管理员重启
NameNode机器需要升级,包括软件、硬件升级,此时集群也将无法使用 HDFS
HA功能通过配置Active/Standby两个nameNodes实现在集群中对NameNode的热备来解决上述问题。如果出现故障,如机器崩溃或机器需要升级维护,这时可通过此种方式将NameNode很快的切换到另外一台机器。
2、HDFS-HA工作要点
1)元数据管理方式需要改变: 内存中各自保存一份元数据; Edits日志只有Active状态的namenode节点可以做写操作;
两个namenode都可以读取edits; 共享的edits放在一个共享存储中管理(qjournal和NFS两个主流实现);
2)需要一个状态管理功能模块
实现了一个zkfailover,常驻在每一个namenode所在的节点,每一个zkfailover负责监控自己所在namenode节点,利用zk进行状态标识,当需要进行状态切换时,由zkfailover来负责切换,切换时需要防止brain
split现象的发生。
3)必须保证两个NameNode之间能够ssh无密码登录。
4)隔离(Fence),即同一时刻仅仅有一个NameNode对外提供服务
3、HDFS-HA自动故障转移工作机制
自动故障转移为HDFS部署增加了两个新组件:ZooKeeper和ZKFailoverController(ZKFC)进程。ZooKeeper是维护少量协调数据,通知客户端这些数据的改变和监视客户端故障的高可用服务。HA的自动故障转移依赖于
ZooKeeper的以下功能:
1)故障检测:集群中的每个NameNode在ZooKeeper中维护了一个持久会话,如果机器崩溃,ZooKeeper中的会话将终止,ZooKeeper通知另一个NameNode需要触发故障转移。
2)现役NameNode选择:ZooKeeper提供了一个简单的机制用于唯一的选择一个节点为active状态。如果目前现役NameNode崩溃,另一个节点可能从ZooKeeper获得特殊的排外锁以表明它应该成为现役NameNode。
ZKFC是自动故障转移中的另一个新组件,是ZooKeeper的客户端,也监视和管理NameNode的状态。每个运行NameNode的主机也运行了一个ZKFC进程,ZKFC负责:
1)健康监测:ZKFC使用一个健康检查命令定期地ping与之在相同主机的NameNode,只要该NameNode及时地回复健康状态,ZKFC认为该节点是健康的。如果该节点崩溃,冻结或进入不健康状态,健康监测器标识该节点为非健康的。
2)ZooKeeper会话管理:当本地NameNode是健康的,ZKFC保持一个在ZooKeeper中打开的会话。如果本地NameNode处于active状态,ZKFC也保持一个特殊的znode锁,该锁使用了ZooKeeper对短暂节点的支持,如果会话终止,锁节点将自动删除。
3)基于ZooKeeper的选择:如果本地NameNode是健康的,且ZKFC发现没有其它的节点当前持有znode锁,它将为自己获取该锁。如果成功,则它已经赢得了选择,并负责运行故障转移进程以使它的本地NameNode为active。故障转移进程与前面描述的手动故障转移相似,首先如果必要保护之前的现役NameNode,然后本地NameNode转换为active状态。
二、HDFS HA模式配置
1、环境准备
1)修改IP
2)修改主机名及主机名和IP地址的映射
3)关闭防火墙
4)ssh免密登录
5)安装NTP,服务器时间做同步
(1~4步骤操作请移动到上一篇文章查看)
6)安装Zookeeper完全分布式
7)安装HDFS HA模式
5、NTP安装及配置
1.服务端配置
[root@master ~]# yum install ntp* -y
[root@master ~]# cp /etc/ntp.conf /etc/ntp.conf_bak
[root@master ~]# vi /etc/ntp.conf
PV4 IPV6 查询 拒绝修改
restrict -4 default kod notrap nomodify
restrict -6 default kod notrap nomodify
#--------------- 其它配置方式 start ----------------- #
#1.允许任何IP的客户机都可以进行时间同步
#restrict default nomodify
#只允许192.168.200.*网段的客户机进行时间同步
#在restrict default nomodify notrap noquery(表示默认拒绝所有IP的时间同步)之后增加一行:
#restrict 192.168.11.0 mask 255.255.255.0 nomodify
#只允许192.168.11.70机器修改本机时间
#restrict 192.168.11.70 nomodify notrap noquery
#允许上层机器10.173.24.27 进行修改本机时间
#restrict 10.173.24.27 nomodify notrap noquery
#----------------- 其它配置方式 end ------------------- #
#添加修改上层时间服务器,如果能联通外网,则不需要修改,
#server 0.rhel.pool.ntp.org iburst
#server 1.rhel.pool.ntp.org iburst
#server 2.rhel.pool.ntp.org iburst
#server 3.rhel.pool.ntp.org iburst
#如果联不通外网,则把上面几行注释,然后添加下面两行,意思是设置成时间服务器是自己
server 127.127.1.0 # local clock
fudge 127.127.1.0 stratum 8 # stratum: ntp stratum层
#stratum说明:
#正常情况下stratum值范围“0~15”
#Stratum-2则从Stratum-1获取时间,Stratum-3从Stratum-2获取时间,以此类推,
#但Stratum层的总数限制在15以内。所有这些服务器在逻辑上形成阶梯式的架构相互连接,
#而Stratum-1的时间服务器是整个系统的基础
#其它配置方式:
#配置上层时间服务器192.168.11.70
#server 192.168.11.70
#------------------------------------------------- #
#参数详解:
#ignore :关闭所有的 NTP 联机服务
#nomodify:客户端不能更改服务端的时间参数,但是客户端可以通过服务端进行网络校时。
#notrust :客户端除非通过认证,否则该客户端来源将被视为不信任子网
#noquery :不提供客户端的时间查询:用户端不能使用ntpq,ntpc等命令来查询ntp服务器
#notrap :不提供trap远端登陆:拒绝为匹配的主机提供模式 6 控制消息陷阱服务。
陷阱服务是 ntpdq 控制消息协议的子系统,用于远程事件日志记录程序。
#nopeer :用于阻止主机尝试与服务器对等,并允许欺诈性服务器控制时钟
#kod : 访问违规时发送 KoD 包。
#restrict -6 表示IPV6地址的权限设置。
2.客户端配置
[root@slave1 ~]# vi /etc/ntp.conf
#将原来的server配置全部注释
#配置上层server(要同步的),在这里配置的是实际的物理地址
server 192.168.200 .98
fudge 192.168.200 .98 stratum 8
3.测试
3.1.1服务端
[root@master ~]# systemctl start ntpd
[root@master ~]# ntpq -p #查看ntp服务器与上层ntp的状态
remote refid st t when poll reach delay offset jitter
*LOCAL(0) .LOCL. 8 l 32 64 377 0.000 0.000 0.000
[root@master ~]# ntpstat # 命令查看时间同步状态
synchronised to local net at stratum 9
time correct to within 12 ms
polling server every 64 s
3.2.2客户端
[root@master ~]# systemctl start ntpd
[root@slave1 ~]# ntpq -p
remote refid st t when poll reach delay offset jitter
*master LOCAL(0) 9 u 61 64 377 0.836 0.067 0.025
1. remote:本机和上层ntp的ip或主机名,“+” 表示优先,“*” 表示次优先
2. refid:参考上一层ntp主机地址
3. st:stratum阶层
4. when:多少秒前曾经同步过时间
5. poll:下次更新在多少秒后
6. reach:已经向上层ntp服务器要求更新的次数
7. delay:网络延迟
8. offset:时间补偿
9. jitter:系统时间与bios时间差
[root@slave1 ~]# ntpstat
synchronised to NTP server (192.168.200.98) at stratum 10
time correct to within 18 ms
polling server every 64 s
6、安装zookeeper
[root@master opt]# tar xf zookeeper-3.4.9.tar.gz
[root@master opt]# cd zookeeper-3.4.9
[root@master zookeeper-3.4.9]# mkdir data
[root@master zookeeper-3.4.9]# cd conf/
[root@master conf]# cp zoo_sample.cfg zoo.cfg
[root@master conf]# vi zoo.cfg
#The number of milliseconds of each tick
tickTime=2000 #通信心跳数,Zookeeper服务器心跳时间,单位毫秒
#The number of ticks that the initial
#synchronization phase can take
initLimit=10 #LF初始通信时限
#The number of ticks that can pass between
#sending a request and getting an acknowledgement
syncLimit=5 #LF同步通信时限
#the directory where the snapshot is stored.
#do not use /tmp for storage, /tmp here is just
#example sakes.
dataDir=/opt/zookeeper-3.4.9/data #数据存放和持久化目录
dataLogDir=/opt/zookeeper-3.4.9/logs #日志存放路径
#the port at which the clients will connect
clientPort=2181 #客户端端口
#the maximum number of client connections.
#increase this if you need to handle more clients
#maxClientCnxns=60
#
#Be sure to read the maintenance section of the
#administrator guide before turning on autopurge.
#
#http://zookeeper.apache.org/doc/current/zookeeperAdmin.html#sc_maintenance
#
#The number of snapshots to retain in dataDir
#autopurge.snapRetainCount=3
#Purge task interval in hours
#Set to "0" to disable auto purge feature
#autopurge.purgeInterval=1
server.1=192.168.200.98:2888:3888
server.2=192.168.200.99:2888:3888
server.3=192.168.200.100:2888:3888
#server.A=B:C.D
A是一个数字,表示这个是第几号服务器;
B是这个服务器的ip地址;
C是这个服务器与集群中的Leader服务器交换信息的端口;
D是万一集群中的Leader服务器挂了,需要一个端口来重新进行选举,选出一个新的Leader,而这个端口就是用来执行选举时服务器相互通信的端口。
[root@master conf]# cd ../data/
[root@master data]# echo 1 > myid
**将安装好的zookeeper分发到从节点**
[root@master opt]# scp -r zookeeper-3.4.9/ slave1:/opt/
[root@master opt]# scp -r zookeeper-3.4.9/ slave2:/opt/
分别在slave1和slave2修改对应zookeeper的myid号即可;
6.1启动
**Master**
[root@master zookeeper-3.4.9]# ./bin/zkServer.sh start
[root@master zookeeper-3.4.9]# ./bin/zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /opt/zookeeper-3.4.9/bin/../conf/zoo.cfg
Mode: follower
**Slave1**
[root@slave1 zookeeper-3.4.9]# ./bin/zkServer.sh start
ZooKeeper JMX enabled by default
Using config: /opt/zookeeper-3.4.9/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED
[root@slave1 zookeeper-3.4.9]# ./bin/zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /opt/zookeeper-3.4.9/bin/../conf/zoo.cfg
Mode: leader
**Slave2**
[root@slave2 zookeeper-3.4.9]# ./bin/zkServer.sh start
ZooKeeper JMX enabled by default
Using config: /opt/zookeeper-3.4.9/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED
[root@slave2 zookeeper-3.4.9]# ./bin/zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /opt/zookeeper-3.4.9/bin/../conf/zoo.cfg
Mode: follower
7、HDFS HA安装
7.1 修改Hadoop的hdfs-site.xml
<configuration>
<!-- 完全分布式集群名称 -->
<property>
<name>dfs.nameservices</name>
<value>mycluster</value>
</property>
<property>
<name>dfs.ha.automatic-failover.enabled</name>
<value>true</value>
</property>
<!-- 集群中NameNode节点都有哪些 -->
<property>
<name>dfs.ha.namenodes.mycluster</name>
<value>nn1,nn2</value>
</property>
<!-- nn1的RPC通信地址 -->
<property>
<name>dfs.namenode.rpc-address.mycluster.nn1</name>
<value>192.168.200.98:9000</value>
</property>
<!-- nn2的RPC通信地址 -->
<property>
<name>dfs.namenode.rpc-address.mycluster.nn2</name>
<value>192.168.200.99:9000</value>
</property>
<!-- nn1的http通信地址 -->
<property>
<name>dfs.namenode.http-address.mycluster.nn1</name>
<value>192.168.200.98:50070</value>
</property>
<!-- nn2的http通信地址 -->
<property>
<name>dfs.namenode.http-address.mycluster.nn2</name>
<value>192.168.200.99:50070</value>
</property>
<!-- 指定NameNode元数据在JournalNode上的存放位置 -->
<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://192.168.200.98:8485;192.168.200.99:8485/mycluster</value>
</property>
<!-- 配置隔离机制,即同一时刻只能有一台服务器对外响应 -->
<property>
<name>dfs.ha.fencing.methods</name>
<value>sshfence</value>
</property>
<!-- 使用隔离机制时需要ssh无秘钥登录-->
<property>
<name>dfs.ha.fencing.ssh.private-key-files</name>
<value>/root/.ssh/id_rsa</value>
</property>
<!-- 声明journalnode服务器存储目录-->
<property>
<name>dfs.journalnode.edits.dir</name>
<value>/opt/hadoop-2.7.2/data/jn</value>
</property>
<!-- 关闭权限检查-->
<property>
<name>dfs.permissions.enable</name>
<value>false</value>
</property>
<!-- 访问代理类:client,mycluster,active配置失败自动切换实现方式-->
<property>
<name>dfs.client.failover.proxy.provider.mycluster</name>
<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>
</configuration>
7.2 修改core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://mycluster</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>4096</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop-2.7.2/data/tmp</value>
</property>
<property>
<name>hadoop.http.staticuser.user</name>
<value>root</value>
</property>
<property>
<name>ha.zookeeper.quorum</name>
<value>192.168.200.98:2181,192.168.200.99:2181,192.168.200.100:2181</value>
</property>
</configuration>
分别将这两个配置文件scp到各节点
7.3 启动测试
[root@master hadoop-2.7.2]# bin/hdfs zkfc -formatZK
#################省略部分内容#######################
23/05/21 23:59:01 INFO ha.ActiveStandbyElector: Successfully created /hadoop-ha/mycluster in ZK.
23/05/21 23:59:01 INFO zookeeper.ZooKeeper: Session: 0x2883f085a240000 closed
[root@master hadoop-2.7.2]# sbin/start-dfs.sh
Web访问测试
访问192.168.200.98
访问192.168.200.99
杀掉Master主机的namenode的进程,查看是否能够成功切换standby为active
[root@master hadoop]# jps50073 DFSZKFailoverController
49883 JournalNode
49580 NameNode
50141 Jps
47006 ResourceManager
46159 QuorumPeerMain
47119 NodeManager
[root@master hadoop]# kill -9 49580
8、YARN HA模式
1、修改yarn-site.xml
[root@master hadoop]# vi yarn-site.xml
<configuration>
<!--开启yarn高可用-->
<property>
<name>yarn.resourcemanager.ha.enabled</name>
<value>true</value>
</property>
<!--指定yarn集群在zookeeper上注册的节点名-->
<property>
<name>yarn.resourcemanager.cluster-id</name>
<value>hayarn</value>
</property>
<!--指定俩个ResourceManager的名称-->
<property>
<name>yarn.resourcemanager.ha.rm-ids</name>
<value>rm1,rm2</value>
</property>
<!--指定rm1的主机 -->
<property>
<name>yarn.resourcemanager.hostname.rm1</name>
<value>192.168.200.98</value>
</property>
<!-- 指定rm2的主机-->
<property>
<name>yarn.resourcemanager.hostname.rm2</name>
<value>192.168.200.99</value>
</property>
<!-- 开始yarn恢复机制-->
<property>
<name>yarn.resourcemanager.recovery.enabled</name>
<value>true</value>
</property>
<!-- 配置zookeeper的地址-->
<property>
<name>yarn.resourcemanager.zk-address</name>
<value>192.168.200.98:2181,192.168.200.99:2181,192.168.200.100:2181</value>
</property>
<!-- nodemanager获取数据的方法方式-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 配置执行ResourceManager恢复机制实现类-->
<property>
<name>yarn.resourcemanager.store.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
</property>
<!-- 开启日志聚集功能 -->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<!-- 设置日志聚集服务器地址 -->
<property>
<name>yarn.log.server.url</name>
<value>http://master:19888/jobhistory/logs</value>
</property>
<!-- 设置日志保留时间为 7 天 -->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>
</configuration>
#将配置文件分发到Hadoop各节点
2、启动
在两个被选为resourcemanager的节点上执行:
[root@master sbin]#./yarn-daemon.sh start resourcemanager
在从节点启动nodemanager
[root@slave1 sbin]# ./yarn-daemon.sh stop nodemanager
3、测试
Web页面
在主节点杀掉rm节点,查看能否切换