Hadoop HA模式

Linux咸鱼

已于 2023-05-22 13:19:28 修改

阅读量611

点赞数

分类专栏：大数据文章标签： hadoop 大数据 hdfs

于 2023-05-22 13:15:03 首次发布

本文链接：https://blog.csdn.net/weixin_46886475/article/details/130795743

版权

大数据专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、概述

1、Namenode HA

1）所谓HA（high available），即高可用（7*24小时不中断服务）。
2）实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制：HDFS的HA和YARN的HA。
3）Hadoop2.0之前，在HDFS集群中NameNode存在单点故障（SPOF）。
4）NameNode主要在以下两个方面影响HDFS集群 NameNode机器发生意外，如宕机，集群将无法使用，直到管理员重启
NameNode机器需要升级，包括软件、硬件升级，此时集群也将无法使用 HDFS
HA功能通过配置Active/Standby两个nameNodes实现在集群中对NameNode的热备来解决上述问题。如果出现故障，如机器崩溃或机器需要升级维护，这时可通过此种方式将NameNode很快的切换到另外一台机器。

2、HDFS-HA工作要点

1）元数据管理方式需要改变：内存中各自保存一份元数据； Edits日志只有Active状态的namenode节点可以做写操作；
两个namenode都可以读取edits；共享的edits放在一个共享存储中管理（qjournal和NFS两个主流实现）；
2）需要一个状态管理功能模块
实现了一个zkfailover，常驻在每一个namenode所在的节点，每一个zkfailover负责监控自己所在namenode节点，利用zk进行状态标识，当需要进行状态切换时，由zkfailover来负责切换，切换时需要防止brain
split现象的发生。
3）必须保证两个NameNode之间能够ssh无密码登录。
4）隔离（Fence），即同一时刻仅仅有一个NameNode对外提供服务

3、HDFS-HA自动故障转移工作机制

自动故障转移为HDFS部署增加了两个新组件：ZooKeeper和ZKFailoverController（ZKFC）进程。ZooKeeper是维护少量协调数据，通知客户端这些数据的改变和监视客户端故障的高可用服务。HA的自动故障转移依赖于

ZooKeeper的以下功能：

1）故障检测：集群中的每个NameNode在ZooKeeper中维护了一个持久会话，如果机器崩溃，ZooKeeper中的会话将终止，ZooKeeper通知另一个NameNode需要触发故障转移。
2）现役NameNode选择：ZooKeeper提供了一个简单的机制用于唯一的选择一个节点为active状态。如果目前现役NameNode崩溃，另一个节点可能从ZooKeeper获得特殊的排外锁以表明它应该成为现役NameNode。
ZKFC是自动故障转移中的另一个新组件，是ZooKeeper的客户端，也监视和管理NameNode的状态。每个运行NameNode的主机也运行了一个ZKFC进程，ZKFC负责：
1）健康监测：ZKFC使用一个健康检查命令定期地ping与之在相同主机的NameNode，只要该NameNode及时地回复健康状态，ZKFC认为该节点是健康的。如果该节点崩溃，冻结或进入不健康状态，健康监测器标识该节点为非健康的。
2）ZooKeeper会话管理：当本地NameNode是健康的，ZKFC保持一个在ZooKeeper中打开的会话。如果本地NameNode处于active状态，ZKFC也保持一个特殊的znode锁，该锁使用了ZooKeeper对短暂节点的支持，如果会话终止，锁节点将自动删除。
3）基于ZooKeeper的选择：如果本地NameNode是健康的，且ZKFC发现没有其它的节点当前持有znode锁，它将为自己获取该锁。如果成功，则它已经赢得了选择，并负责运行故障转移进程以使它的本地NameNode为active。故障转移进程与前面描述的手动故障转移相似，首先如果必要保护之前的现役NameNode，然后本地NameNode转换为active状态。

二、HDFS HA模式配置

1、环境准备

1）修改IP
2）修改主机名及主机名和IP地址的映射
3）关闭防火墙
4）ssh免密登录
5）安装NTP，服务器时间做同步
（1~4步骤操作请移动到上一篇文章查看）
6）安装Zookeeper完全分布式
7）安装HDFS HA模式

5、NTP安装及配置

1.服务端配置

[root@master ~]# yum install ntp* -y
[root@master ~]# cp /etc/ntp.conf /etc/ntp.conf_bak
[root@master ~]# vi /etc/ntp.conf
PV4 IPV6 查询 拒绝修改
restrict -4 default kod notrap nomodify
restrict -6 default kod notrap nomodify

 #--------------- 其它配置方式 start ----------------- #
 #1.允许任何IP的客户机都可以进行时间同步
#restrict default nomodify
#只允许192.168.200.*网段的客户机进行时间同步
#在restrict default nomodify notrap noquery（表示默认拒绝所有IP的时间同步）之后增加一行：
#restrict 192.168.11.0 mask 255.255.255.0 nomodify

#只允许192.168.11.70机器修改本机时间
#restrict 192.168.11.70 nomodify notrap noquery

#允许上层机器10.173.24.27 进行修改本机时间
#restrict 10.173.24.27 nomodify notrap noquery
#----------------- 其它配置方式 end ------------------- #

#添加修改上层时间服务器，如果能联通外网，则不需要修改，
#server 0.rhel.pool.ntp.org iburst
#server 1.rhel.pool.ntp.org iburst
#server 2.rhel.pool.ntp.org iburst
#server 3.rhel.pool.ntp.org iburst

#如果联不通外网，则把上面几行注释，然后添加下面两行，意思是设置成时间服务器是自己
server 127.127.1.0  # local clock
fudge 127.127.1.0 stratum 8  # stratum: ntp stratum层

#stratum说明:
#正常情况下stratum值范围“0~15”
#Stratum-2则从Stratum-1获取时间，Stratum-3从Stratum-2获取时间，以此类推，
#但Stratum层的总数限制在15以内。所有这些服务器在逻辑上形成阶梯式的架构相互连接，
#而Stratum-1的时间服务器是整个系统的基础

#其它配置方式：
#配置上层时间服务器192.168.11.70
#server 192.168.11.70

#------------------------------------------------- #
#参数详解：
#ignore  ：关闭所有的 NTP 联机服务
#nomodify：客户端不能更改服务端的时间参数，但是客户端可以通过服务端进行网络校时。
#notrust ：客户端除非通过认证，否则该客户端来源将被视为不信任子网
#noquery ：不提供客户端的时间查询：用户端不能使用ntpq，ntpc等命令来查询ntp服务器
#notrap ：不提供trap远端登陆：拒绝为匹配的主机提供模式 6 控制消息陷阱服务。
          陷阱服务是 ntpdq 控制消息协议的子系统，用于远程事件日志记录程序。
#nopeer ：用于阻止主机尝试与服务器对等，并允许欺诈性服务器控制时钟
#kod ： 访问违规时发送 KoD 包。
#restrict -6 表示IPV6地址的权限设置。

2.客户端配置

[root@slave1 ~]# vi /etc/ntp.conf 
#将原来的server配置全部注释
#配置上层server(要同步的)，在这里配置的是实际的物理地址
server 192.168.200 .98
fudge 192.168.200 .98 stratum 8

3.测试

3.1.1服务端

[root@master ~]# systemctl start ntpd
[root@master ~]# ntpq -p     #查看ntp服务器与上层ntp的状态
remote           refid            st t when poll reach delay offset jitter

*LOCAL(0)        .LOCL.           8 l   32   64  377    0.000    0.000   0.000
[root@master ~]# ntpstat      # 命令查看时间同步状态
synchronised to local net at stratum 9 
   time correct to within 12 ms
   polling server every 64 s

3.2.2客户端

[root@master ~]# systemctl start ntpd
[root@slave1 ~]# ntpq -p
remote          refid             st t when poll reach delay offset jitter

*master          LOCAL(0)         9 u   61   64  377    0.836    0.067   0.025

 1. remote：本机和上层ntp的ip或主机名，“+” 表示优先，“*” 表示次优先
 2. refid：参考上一层ntp主机地址
 3. st：stratum阶层
 4. when：多少秒前曾经同步过时间
 5. poll：下次更新在多少秒后
 6. reach：已经向上层ntp服务器要求更新的次数
 7. delay：网络延迟
 8. offset：时间补偿
 9. jitter：系统时间与bios时间差

[root@slave1 ~]# ntpstat 
synchronised to NTP server (192.168.200.98) at stratum 10 
   time correct to within 18 ms
   polling server every 64 s

6、安装zookeeper

[root@master opt]# tar xf zookeeper-3.4.9.tar.gz 
[root@master opt]# cd zookeeper-3.4.9
[root@master zookeeper-3.4.9]# mkdir data
[root@master zookeeper-3.4.9]# cd conf/
[root@master conf]# cp zoo_sample.cfg zoo.cfg 
[root@master conf]# vi zoo.cfg
#The number of milliseconds of each tick
tickTime=2000     #通信心跳数，Zookeeper服务器心跳时间，单位毫秒
#The number of ticks that the initial
#synchronization phase can take
initLimit=10      #LF初始通信时限
#The number of ticks that can pass between
#sending a request and getting an acknowledgement
syncLimit=5       #LF同步通信时限
#the directory where the snapshot is stored.
#do not use /tmp for storage, /tmp here is just
#example sakes.
dataDir=/opt/zookeeper-3.4.9/data       #数据存放和持久化目录
dataLogDir=/opt/zookeeper-3.4.9/logs         #日志存放路径
#the port at which the clients will connect
clientPort=2181                   #客户端端口
#the maximum number of client connections.
#increase this if you need to handle more clients
#maxClientCnxns=60
#
#Be sure to read the maintenance section of the
#administrator guide before turning on autopurge.
#
#http://zookeeper.apache.org/doc/current/zookeeperAdmin.html#sc_maintenance
#
#The number of snapshots to retain in dataDir
#autopurge.snapRetainCount=3
#Purge task interval in hours
#Set to "0" to disable auto purge feature
#autopurge.purgeInterval=1
server.1=192.168.200.98:2888:3888
server.2=192.168.200.99:2888:3888
server.3=192.168.200.100:2888:3888
#server.A=B:C.D
A是一个数字，表示这个是第几号服务器；
B是这个服务器的ip地址；
C是这个服务器与集群中的Leader服务器交换信息的端口；
D是万一集群中的Leader服务器挂了，需要一个端口来重新进行选举，选出一个新的Leader，而这个端口就是用来执行选举时服务器相互通信的端口。
[root@master conf]# cd ../data/
[root@master data]# echo 1 > myid

**将安装好的zookeeper分发到从节点**
[root@master opt]# scp -r zookeeper-3.4.9/ slave1:/opt/
[root@master opt]# scp -r zookeeper-3.4.9/ slave2:/opt/
分别在slave1和slave2修改对应zookeeper的myid号即可；

6.1启动

**Master**
[root@master zookeeper-3.4.9]# ./bin/zkServer.sh start
[root@master zookeeper-3.4.9]# ./bin/zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /opt/zookeeper-3.4.9/bin/../conf/zoo.cfg
Mode: follower

**Slave1**
[root@slave1 zookeeper-3.4.9]# ./bin/zkServer.sh start
ZooKeeper JMX enabled by default
Using config: /opt/zookeeper-3.4.9/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED
[root@slave1 zookeeper-3.4.9]# ./bin/zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /opt/zookeeper-3.4.9/bin/../conf/zoo.cfg
Mode: leader

**Slave2**
[root@slave2 zookeeper-3.4.9]# ./bin/zkServer.sh start
ZooKeeper JMX enabled by default
Using config: /opt/zookeeper-3.4.9/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED
[root@slave2 zookeeper-3.4.9]# ./bin/zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /opt/zookeeper-3.4.9/bin/../conf/zoo.cfg
Mode: follower

7、HDFS HA安装

7.1 修改Hadoop的hdfs-site.xml

<configuration>
        <!-- 完全分布式集群名称 -->
        <property>
                <name>dfs.nameservices</name>
                <value>mycluster</value>
        </property>
        <property>
                <name>dfs.ha.automatic-failover.enabled</name>
                <value>true</value>
        </property>

        <!-- 集群中NameNode节点都有哪些 -->
        <property>
                <name>dfs.ha.namenodes.mycluster</name>
                <value>nn1,nn2</value>
        </property>

        <!-- nn1的RPC通信地址 -->
        <property>
                <name>dfs.namenode.rpc-address.mycluster.nn1</name>
                <value>192.168.200.98:9000</value>
        </property>

        <!-- nn2的RPC通信地址 -->
        <property>
                <name>dfs.namenode.rpc-address.mycluster.nn2</name>
                <value>192.168.200.99:9000</value>
        </property>

        <!-- nn1的http通信地址 -->
        <property>
                <name>dfs.namenode.http-address.mycluster.nn1</name>
                <value>192.168.200.98:50070</value>
        </property>

        <!-- nn2的http通信地址 -->
        <property>
                <name>dfs.namenode.http-address.mycluster.nn2</name>
                <value>192.168.200.99:50070</value>
        </property>

        <!-- 指定NameNode元数据在JournalNode上的存放位置 -->
        <property>
                <name>dfs.namenode.shared.edits.dir</name>
                <value>qjournal://192.168.200.98:8485;192.168.200.99:8485/mycluster</value>
        </property>

        <!-- 配置隔离机制，即同一时刻只能有一台服务器对外响应 -->
        <property>
                <name>dfs.ha.fencing.methods</name>
                <value>sshfence</value>
        </property>

        <!-- 使用隔离机制时需要ssh无秘钥登录-->
        <property>
                <name>dfs.ha.fencing.ssh.private-key-files</name>
                <value>/root/.ssh/id_rsa</value>
        </property>

        <!-- 声明journalnode服务器存储目录-->
        <property>
                <name>dfs.journalnode.edits.dir</name>
                <value>/opt/hadoop-2.7.2/data/jn</value>
        </property>

        <!-- 关闭权限检查-->
        <property>
                <name>dfs.permissions.enable</name>
                <value>false</value>
        </property>

        <!-- 访问代理类：client，mycluster，active配置失败自动切换实现方式-->
        <property>
                <name>dfs.client.failover.proxy.provider.mycluster</name>
                <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
        </property>
</configuration>

7.2 修改core-site.xml

<configuration>

        <property>
                 <name>fs.defaultFS</name>
                <value>hdfs://mycluster</value>
        </property>

        <property>
                <name>io.file.buffer.size</name>
                <value>4096</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/opt/hadoop-2.7.2/data/tmp</value>

        </property>
        <property>
                 <name>hadoop.http.staticuser.user</name>
                <value>root</value>
        </property>

       <property>
                <name>ha.zookeeper.quorum</name>
                <value>192.168.200.98:2181,192.168.200.99:2181,192.168.200.100:2181</value>
       </property>

</configuration>

分别将这两个配置文件scp到各节点

7.3 启动测试

[root@master hadoop-2.7.2]# bin/hdfs zkfc -formatZK
#################省略部分内容#######################
23/05/21 23:59:01 INFO ha.ActiveStandbyElector: Successfully created /hadoop-ha/mycluster in ZK.
23/05/21 23:59:01 INFO zookeeper.ZooKeeper: Session: 0x2883f085a240000 closed
[root@master hadoop-2.7.2]# sbin/start-dfs.sh

Web访问测试

访问192.168.200.98
在这里插入图片描述
访问192.168.200.99

杀掉Master主机的namenode的进程，查看是否能够成功切换standby为active

[root@master hadoop]# jps50073 DFSZKFailoverController
49883 JournalNode
49580 NameNode
50141 Jps
47006 ResourceManager
46159 QuorumPeerMain
47119 NodeManager
[root@master hadoop]# kill -9 49580

在这里插入图片描述

8、YARN HA模式

1、修改yarn-site.xml

[root@master hadoop]# vi yarn-site.xml 
<configuration>
        <!--开启yarn高可用-->
<property>
    <name>yarn.resourcemanager.ha.enabled</name>
    <value>true</value>
</property>

<!--指定yarn集群在zookeeper上注册的节点名-->
<property>
    <name>yarn.resourcemanager.cluster-id</name>
    <value>hayarn</value>
</property>

<!--指定俩个ResourceManager的名称-->
<property>
    <name>yarn.resourcemanager.ha.rm-ids</name>
    <value>rm1,rm2</value>
</property>

<!--指定rm1的主机 -->
<property>
    <name>yarn.resourcemanager.hostname.rm1</name>
    <value>192.168.200.98</value>
</property>

<!-- 指定rm2的主机-->
<property>
    <name>yarn.resourcemanager.hostname.rm2</name>
    <value>192.168.200.99</value>
</property>

<!-- 开始yarn恢复机制-->
<property>
    <name>yarn.resourcemanager.recovery.enabled</name>
    <value>true</value>
</property>

<!-- 配置zookeeper的地址-->
<property>
    <name>yarn.resourcemanager.zk-address</name>
    <value>192.168.200.98:2181,192.168.200.99:2181,192.168.200.100:2181</value>
</property>

<!-- nodemanager获取数据的方法方式-->
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>

<!-- 配置执行ResourceManager恢复机制实现类-->
<property>
    <name>yarn.resourcemanager.store.class</name>
    <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
</property>

<!-- 开启日志聚集功能 -->
<property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
</property>
<!-- 设置日志聚集服务器地址 -->
<property>
    <name>yarn.log.server.url</name>
    <value>http://master:19888/jobhistory/logs</value>
</property>
<!-- 设置日志保留时间为 7 天 -->
<property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
</property>
</configuration>

#将配置文件分发到Hadoop各节点

2、启动

在两个被选为resourcemanager的节点上执行：
[root@master sbin]#./yarn-daemon.sh start resourcemanager
在从节点启动nodemanager
[root@slave1 sbin]# ./yarn-daemon.sh stop nodemanager

3、测试
Web页面
在这里插入图片描述
在主节点杀掉rm节点，查看能否切换