转载https://www.w3cschool.cn/zookeeper/zookeeper_leader_election.html
leader选举是保证分布式数据一致性的关键所在。leader选举分为zookeeper集群初始化启动时选举和zookeeper集群运行期间leader重新选举两种情况。
先了解下zookeeper节点4种可能状态和事务id的概念。
1 zookeeper节点状态
- looking:寻找leader状态,处于该状态需要进行选举流程
- leading:领导者状态,处于该状态表明它已经是leader
- follower:跟随者状态,表示leader已经选举出来,当前节点的状态是follower,可以处理非事务请求
- observer:观察者状态
2 事务id
zookeeper状态的每次变化都接收一个zxid(zookeeper事务id)形式的标识。zxid是一个64位数字,由leader统一分配,全局唯一,不断递增。zxid展示了所有的zookeeper的变更顺序。每次变更会有一个唯一的zxid,如果zxid1小于zxid2说明zxid1在zxid2之前发生。
3 zookeeper集群初始化启动时leader选举
若进行leader选举,至少需要两台机器。这里选取3台机器组成的服务器集群为例。初始化启动期间leader选举流程如下图所示:
在集群初始化阶段,当有一台服务器zk1启动时,其单独无法进行和完成leader选举,当第二台服务器zk2启动时,此时两台机器可以相互通信,
每台机器都试图找到leader,于是leader进入选举流程。选举过程开始,过程如下 :
- 1 每个server发出一个投票。由于是初始情况,zk1和zk2都会将自己作为leader服务器来进行投票,每次投票会包含所选举的服务器的myid和zxid,使用 (myid,zxid) 来表示,此时zxk1的投票为(1,0),zk的投票为(2,0),然后各自将这个投票发给集群中的其它机器。
- 2 接收来自各个服务器的投票。集群中的每个服务器接收到投票后,首先会判断该投票的有效性,如检查是否是本轮投票、是否来自looking状态的服务器。
- 3 处理投票。针对每一个投票,服务器都需要将别人的投票和自己的投票进行比较,规则如下
> (1) 优先检查zxid,zxid比较大的优先作为leader。
> (2) 如果zxid相同,那么就比较myid。myid较大的服务器作为leader服务器。
对于zxk1而言,它的投票是(1,0),接收zk2的投票为(2,0),首先会比较两者的zxid,都为0;再比较myid,此时zx2的myid最大,于是zk2胜。zx1更新自已的投票为(2,0),并将投票重新发送给zk2。 - 4 统计投票。每次投票后,服务器都会统计投票信息,判断是否已经有过半的机器接受到相同的投票信息,对于zk1、zk2而言,都统计出集群中已经有两台机器接受了(2,0)的投票信息,此时便认为已经选举出zk作为leader。
- 5 改变服务器状态。一旦确定了leader,每个服务器都会更新自己的状态。如果是follower,则状态变为following,如果是leader,则状态变为leading。当新的zookeeper节点zk3启动时,发现已经有了leader,不再选举,直接将自己的状态从looking变为following。
4 zookeeper集群运行期间leader重新选举
在zookeeper运行期间,如果leader节点挂了,那么整个zookeeper集群将暂停对外服务,进入新一轮leader选举。假设正在运行的有zk1 zk2 zk3 三台服务器,当前leader是zk2,若某一时刻leader挂了,此时便开始leader选举。选举过程如下所示。
- 1 变更状态。leader挂后,余下的非observer服务器都会将自己的状态变为following,然后开始进行leader选举过程。
- 2 每个server会发出一个投票。在运行期间,每个服务器上的zxid可能不同,此时假定zk1的zxid为124,zk3的zxid为123;在第一轮投票中,zk1和zk3都会投自己,产生投票(1,124) ,(1,123),然后将各自的投票发送给集群中所有机器。
- 3 接收来自各个服务器的投票。与启动过程相同。
- 4 处理投票。与启动过程相同,由于zk1的zxid大,所以zk1将会成为leader。
- 5 统计投票。与启动过程相同。
- 6 改变服务器的状态。与启动过程相同。