Hadoop HA模式

一、概述

1、Namenode HA

1)所谓HA(high available),即高可用(7*24小时不中断服务)。
2)实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。
3)Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF)。
4)NameNode主要在以下两个方面影响HDFS集群 NameNode机器发生意外,如宕机,集群将无法使用,直到管理员重启
NameNode机器需要升级,包括软件、硬件升级,此时集群也将无法使用 HDFS
HA功能通过配置Active/Standby两个nameNodes实现在集群中对NameNode的热备来解决上述问题。如果出现故障,如机器崩溃或机器需要升级维护,这时可通过此种方式将NameNode很快的切换到另外一台机器。

2、HDFS-HA工作要点

1)元数据管理方式需要改变: 内存中各自保存一份元数据; Edits日志只有Active状态的namenode节点可以做写操作;
两个namenode都可以读取edits; 共享的edits放在一个共享存储中管理(qjournal和NFS两个主流实现);
2)需要一个状态管理功能模块
实现了一个zkfailover,常驻在每一个namenode所在的节点,每一个zkfailover负责监控自己所在namenode节点,利用zk进行状态标识,当需要进行状态切换时,由zkfailover来负责切换,切换时需要防止brain
split现象的发生。
3)必须保证两个NameNode之间能够ssh无密码登录。
4)隔离(Fence),即同一时刻仅仅有一个NameNode对外提供服务

3、HDFS-HA自动故障转移工作机制

自动故障转移为HDFS部署增加了两个新组件:ZooKeeper和ZKFailoverController(ZKFC)进程。ZooKeeper是维护少量协调数据,通知客户端这些数据的改变和监视客户端故障的高可用服务。HA的自动故障转移依赖于

ZooKeeper的以下功能:

1)故障检测:集群中的每个NameNode在ZooKeeper中维护了一个持久会话,如果机器崩溃,ZooKeeper中的会话将终止,ZooKeeper通知另一个NameNode需要触发故障转移。
2)现役NameNode选择:ZooKeeper提供了一个简单的机制用于唯一的选择一个节点为active状态。如果目前现役NameNode崩溃,另一个节点可能从ZooKeeper获得特殊的排外锁以表明它应该成为现役NameNode。
ZKFC是自动故障转移中的另一个新组件,是ZooKeeper的客户端,也监视和管理NameNode的状态。每个运行NameNode的主机也运行了一个ZKFC进程,ZKFC负责:
1)健康监测:ZKFC使用一个健康检查命令定期地ping与之在相同主机的NameNode,只要该NameNode及时地回复健康状态,ZKFC认为该节点是健康的。如果该节点崩溃,冻结或进入不健康状态,健康监测器标识该节点为非健康的。
2)ZooKeeper会话管理:当本地NameNode是健康的,ZKFC保持一个在ZooKeeper中打开的会话。如果本地NameNode处于active状态,ZKFC也保持一个特殊的znode锁,该锁使用了ZooKeeper对短暂节点的支持,如果会话终止,锁节点将自动删除。
3)基于ZooKeeper的选择:如果本地NameNode是健康的,且ZKFC发现没有其它的节点当前持有znode锁,它将为自己获取该锁。如果成功,则它已经赢得了选择,并负责运行故障转移进程以使它的本地NameNode为active。故障转移进程与前面描述的手动故障转移相似,首先如果必要保护之前的现役NameNode,然后本地NameNode转换为active状态。
在这里插入图片描述

二、HDFS HA模式配置

1、环境准备

1)修改IP
2)修改主机名及主机名和IP地址的映射
3)关闭防火墙
4)ssh免密登录
5)安装NTP,服务器时间做同步
(1~4步骤操作请移动到上一篇文章查看)
6)安装Zookeeper完全分布式
7)安装HDFS HA模式

5、NTP安装及配置

1.服务端配置

[root@master ~]# yum install ntp* -y
[root@master ~]# cp /etc/ntp.conf /etc/ntp.conf_bak
[root@master ~]# vi /etc/ntp.conf
PV4 IPV6 查询 拒绝修改
restrict -4 default kod notrap nomodify
restrict -6 default kod notrap nomodify

 #--------------- 其它配置方式 start ----------------- #
 #1.允许任何IP的客户机都可以进行时间同步
#restrict default nomodify
#只允许192.168.200.*网段的客户机进行时间同步
#在restrict default nomodify notrap noquery(表示默认拒绝所有IP的时间同步)之后增加一行:
#restrict 192.168.11.0 mask 255.255.255.0 nomodify

#只允许192.168.11.70机器修改本机时间
#restrict 192.168.11.70 nomodify notrap noquery

#允许上层机器10.173.24.27 进行修改本机时间
#restrict 10.173.24.27 nomodify notrap noquery
#----------------- 其它配置方式 end ------------------- #

#添加修改上层时间服务器,如果能联通外网,则不需要修改,
#server 0.rhel.pool.ntp.org iburst
#server 1.rhel.pool.ntp.org iburst
#server 2.rhel.pool.ntp.org iburst
#server 3.rhel.pool.ntp.org iburst

#如果联不通外网,则把上面几行注释,然后添加下面两行,意思是设置成时间服务器是自己
server 127.127.1.0  # local clock
fudge 127.127.1.0 stratum 8  # stratum: ntp stratum层

#stratum说明:
#正常情况下stratum值范围“0~15”
#Stratum-2则从Stratum-1获取时间,Stratum-3从Stratum-2获取时间,以此类推,
#但Stratum层的总数限制在15以内。所有这些服务器在逻辑上形成阶梯式的架构相互连接,
#而Stratum-1的时间服务器是整个系统的基础

#其它配置方式:
#配置上层时间服务器192.168.11.70
#server 192.168.11.70

#------------------------------------------------- #
#参数详解:
#ignore  :关闭所有的 NTP 联机服务
#nomodify:客户端不能更改服务端的时间参数,但是客户端可以通过服务端进行网络校时。
#notrust :客户端除非通过认证,否则该客户端来源将被视为不信任子网
#noquery :不提供客户端的时间查询:用户端不能使用ntpq,ntpc等命令来查询ntp服务器
#notrap :不提供trap远端登陆:拒绝为匹配的主机提供模式 6 控制消息陷阱服务。
          陷阱服务是 ntpdq 控制消息协议的子系统,用于远程事件日志记录程序。
#nopeer :用于阻止主机尝试与服务器对等,并允许欺诈性服务器控制时钟
#kod : 访问违规时发送 KoD 包。
#restrict -6 表示IPV6地址的权限设置。

2.客户端配置

[root@slave1 ~]# vi /etc/ntp.conf 
#将原来的server配置全部注释
#配置上层server(要同步的),在这里配置的是实际的物理地址
server 192.168.200 .98
fudge 192.168.200 .98 stratum 8 

3.测试

3.1.1服务端

[root@master ~]# systemctl start ntpd
[root@master ~]# ntpq -p     #查看ntp服务器与上层ntp的状态
remote           refid            st t when poll reach delay offset jitter

*LOCAL(0)        .LOCL.           8 l   32   64  377    0.000    0.000   0.000
[root@master ~]# ntpstat      # 命令查看时间同步状态
synchronised to local net at stratum 9 
   time correct to within 12 ms
   polling server every 64 s

3.2.2客户端

[root@master ~]# systemctl start ntpd
[root@slave1 ~]# ntpq -p
remote          refid             st t when poll reach delay offset jitter

*master          LOCAL(0)         9 u   61   64  377    0.836    0.067   0.025

 1. remote:本机和上层ntp的ip或主机名,“+” 表示优先,“*” 表示次优先
 2. refid:参考上一层ntp主机地址
 3. st:stratum阶层
 4. when:多少秒前曾经同步过时间
 5. poll:下次更新在多少秒后
 6. reach:已经向上层ntp服务器要求更新的次数
 7. delay:网络延迟
 8. offset:时间补偿
 9. jitter:系统时间与bios时间差

[root@slave1 ~]# ntpstat 
synchronised to NTP server (192.168.200.98) at stratum 10 
   time correct to within 18 ms
   polling server every 64 s

6、安装zookeeper

[root@master opt]# tar xf zookeeper-3.4.9.tar.gz 
[root@master opt]# cd zookeeper-3.4.9
[root@master zookeeper-3.4.9]# mkdir data
[root@master zookeeper-3.4.9]# cd conf/
[root@master conf]# cp zoo_sample.cfg zoo.cfg 
[root@master conf]# vi zoo.cfg
#The number of milliseconds of each tick
tickTime=2000     #通信心跳数,Zookeeper服务器心跳时间,单位毫秒
#The number of ticks that the initial
#synchronization phase can take
initLimit=10      #LF初始通信时限
#The number of ticks that can pass between
#sending a request and getting an acknowledgement
syncLimit=5       #LF同步通信时限
#the directory where the snapshot is stored.
#do not use /tmp for storage, /tmp here is just
#example sakes.
dataDir=/opt/zookeeper-3.4.9/data       #数据存放和持久化目录
dataLogDir=/opt/zookeeper-3.4.9/logs         #日志存放路径
#the port at which the clients will connect
clientPort=2181                   #客户端端口
#the maximum number of client connections.
#increase this if you need to handle more clients
#maxClientCnxns=60
#
#Be sure to read the maintenance section of the
#administrator guide before turning on autopurge.
#
#http://zookeeper.apache.org/doc/current/zookeeperAdmin.html#sc_maintenance
#
#The number of snapshots to retain in dataDir
#autopurge.snapRetainCount=3
#Purge task interval in hours
#Set to "0" to disable auto purge feature
#autopurge.purgeInterval=1
server.1=192.168.200.98:2888:3888
server.2=192.168.200.99:2888:3888
server.3=192.168.200.100:2888:3888
#server.A=B:C.D
A是一个数字,表示这个是第几号服务器;
B是这个服务器的ip地址;
C是这个服务器与集群中的Leader服务器交换信息的端口;
D是万一集群中的Leader服务器挂了,需要一个端口来重新进行选举,选出一个新的Leader,而这个端口就是用来执行选举时服务器相互通信的端口。
[root@master conf]# cd ../data/
[root@master data]# echo 1 > myid

**将安装好的zookeeper分发到从节点**
[root@master opt]# scp -r zookeeper-3.4.9/ slave1:/opt/
[root@master opt]# scp -r zookeeper-3.4.9/ slave2:/opt/
分别在slave1和slave2修改对应zookeeper的myid号即可;

6.1启动

**Master**
[root@master zookeeper-3.4.9]# ./bin/zkServer.sh start
[root@master zookeeper-3.4.9]# ./bin/zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /opt/zookeeper-3.4.9/bin/../conf/zoo.cfg
Mode: follower

**Slave1**
[root@slave1 zookeeper-3.4.9]# ./bin/zkServer.sh start
ZooKeeper JMX enabled by default
Using config: /opt/zookeeper-3.4.9/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED
[root@slave1 zookeeper-3.4.9]# ./bin/zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /opt/zookeeper-3.4.9/bin/../conf/zoo.cfg
Mode: leader

**Slave2**
[root@slave2 zookeeper-3.4.9]# ./bin/zkServer.sh start
ZooKeeper JMX enabled by default
Using config: /opt/zookeeper-3.4.9/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED
[root@slave2 zookeeper-3.4.9]# ./bin/zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /opt/zookeeper-3.4.9/bin/../conf/zoo.cfg
Mode: follower

7、HDFS HA安装

7.1 修改Hadoop的hdfs-site.xml

<configuration>
        <!-- 完全分布式集群名称 -->
        <property>
                <name>dfs.nameservices</name>
                <value>mycluster</value>
        </property>
        <property>
                <name>dfs.ha.automatic-failover.enabled</name>
                <value>true</value>
        </property>

        <!-- 集群中NameNode节点都有哪些 -->
        <property>
                <name>dfs.ha.namenodes.mycluster</name>
                <value>nn1,nn2</value>
        </property>

        <!-- nn1的RPC通信地址 -->
        <property>
                <name>dfs.namenode.rpc-address.mycluster.nn1</name>
                <value>192.168.200.98:9000</value>
        </property>

        <!-- nn2的RPC通信地址 -->
        <property>
                <name>dfs.namenode.rpc-address.mycluster.nn2</name>
                <value>192.168.200.99:9000</value>
        </property>

        <!-- nn1的http通信地址 -->
        <property>
                <name>dfs.namenode.http-address.mycluster.nn1</name>
                <value>192.168.200.98:50070</value>
        </property>

        <!-- nn2的http通信地址 -->
        <property>
                <name>dfs.namenode.http-address.mycluster.nn2</name>
                <value>192.168.200.99:50070</value>
        </property>

        <!-- 指定NameNode元数据在JournalNode上的存放位置 -->
        <property>
                <name>dfs.namenode.shared.edits.dir</name>
                <value>qjournal://192.168.200.98:8485;192.168.200.99:8485/mycluster</value>
        </property>

        <!-- 配置隔离机制,即同一时刻只能有一台服务器对外响应 -->
        <property>
                <name>dfs.ha.fencing.methods</name>
                <value>sshfence</value>
        </property>

        <!-- 使用隔离机制时需要ssh无秘钥登录-->
        <property>
                <name>dfs.ha.fencing.ssh.private-key-files</name>
                <value>/root/.ssh/id_rsa</value>
        </property>

        <!-- 声明journalnode服务器存储目录-->
        <property>
                <name>dfs.journalnode.edits.dir</name>
                <value>/opt/hadoop-2.7.2/data/jn</value>
        </property>

        <!-- 关闭权限检查-->
        <property>
                <name>dfs.permissions.enable</name>
                <value>false</value>
        </property>

        <!-- 访问代理类:client,mycluster,active配置失败自动切换实现方式-->
        <property>
                <name>dfs.client.failover.proxy.provider.mycluster</name>
                <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
        </property>
</configuration>

7.2 修改core-site.xml

<configuration>

        <property>
                 <name>fs.defaultFS</name>
                <value>hdfs://mycluster</value>
        </property>

        <property>
                <name>io.file.buffer.size</name>
                <value>4096</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/opt/hadoop-2.7.2/data/tmp</value>

        </property>
        <property>
                 <name>hadoop.http.staticuser.user</name>
                <value>root</value>
        </property>

       <property>
                <name>ha.zookeeper.quorum</name>
                <value>192.168.200.98:2181,192.168.200.99:2181,192.168.200.100:2181</value>
       </property>

</configuration>

分别将这两个配置文件scp到各节点

7.3 启动测试

[root@master hadoop-2.7.2]# bin/hdfs zkfc -formatZK
#################省略部分内容#######################
23/05/21 23:59:01 INFO ha.ActiveStandbyElector: Successfully created /hadoop-ha/mycluster in ZK.
23/05/21 23:59:01 INFO zookeeper.ZooKeeper: Session: 0x2883f085a240000 closed
[root@master hadoop-2.7.2]# sbin/start-dfs.sh

Web访问测试

访问192.168.200.98
在这里插入图片描述
访问192.168.200.99
在这里插入图片描述

杀掉Master主机的namenode的进程,查看是否能够成功切换standby为active

[root@master hadoop]# jps50073 DFSZKFailoverController
49883 JournalNode
49580 NameNode
50141 Jps
47006 ResourceManager
46159 QuorumPeerMain
47119 NodeManager
[root@master hadoop]# kill -9 49580

在这里插入图片描述

在这里插入图片描述

8、YARN HA模式

1、修改yarn-site.xml

[root@master hadoop]# vi yarn-site.xml 
<configuration>
        <!--开启yarn高可用-->
<property>
    <name>yarn.resourcemanager.ha.enabled</name>
    <value>true</value>
</property>

<!--指定yarn集群在zookeeper上注册的节点名-->
<property>
    <name>yarn.resourcemanager.cluster-id</name>
    <value>hayarn</value>
</property>

<!--指定俩个ResourceManager的名称-->
<property>
    <name>yarn.resourcemanager.ha.rm-ids</name>
    <value>rm1,rm2</value>
</property>

<!--指定rm1的主机 -->
<property>
    <name>yarn.resourcemanager.hostname.rm1</name>
    <value>192.168.200.98</value>
</property>

<!-- 指定rm2的主机-->
<property>
    <name>yarn.resourcemanager.hostname.rm2</name>
    <value>192.168.200.99</value>
</property>

<!-- 开始yarn恢复机制-->
<property>
    <name>yarn.resourcemanager.recovery.enabled</name>
    <value>true</value>
</property>

<!-- 配置zookeeper的地址-->
<property>
    <name>yarn.resourcemanager.zk-address</name>
    <value>192.168.200.98:2181,192.168.200.99:2181,192.168.200.100:2181</value>
</property>

<!-- nodemanager获取数据的方法方式-->
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>

<!-- 配置执行ResourceManager恢复机制实现类-->
<property>
    <name>yarn.resourcemanager.store.class</name>
    <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
</property>

<!-- 开启日志聚集功能 -->
<property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
</property>
<!-- 设置日志聚集服务器地址 -->
<property>
    <name>yarn.log.server.url</name>
    <value>http://master:19888/jobhistory/logs</value>
</property>
<!-- 设置日志保留时间为 7 天 -->
<property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
</property>
</configuration>

#将配置文件分发到Hadoop各节点

2、启动

在两个被选为resourcemanager的节点上执行:
[root@master sbin]#./yarn-daemon.sh start resourcemanager
在从节点启动nodemanager
[root@slave1 sbin]# ./yarn-daemon.sh stop nodemanager

3、测试
Web页面
在这里插入图片描述
在主节点杀掉rm节点,查看能否切换
在这里插入图片描述

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值