elasticsearch的集群选举和脑裂
1.脑裂
1.1脑裂产生的情况
在es集群中,多个master选举出一个现役(active)master后,由于现役master网络波动但没有宕机,导致其他主节点连接不到判断宕机,其他主节点执行选举逻辑,生成新的master,当网络波动消失,集群将会被多个master同时管理(meta data),最终集群中的数据会错乱–脑裂。
1.2解决脑裂
原则:集群中之多只有一个有效的现役master
配置文件中准备一个人过半的有效最小master数量
2.集群选举
启动es的集群时,可以成为master的节点可能有多个(master.node:true),最终成为现役master的节点是谁需要通过选举完成(bully算法,谁的id大/小)
2.1步骤
1.节点启动连接协调器,获取集群所有节点信息在内存中准备一个activeMaster的对象存储现役master。
2.判断activeMaster中是否已经有现役master的值,如果有了,启动结束,加入集群(一般都可以在第二步结束),如果没有现役master进入第三步。
3.如果activeMaster没有值,将可以获取的所有可以成为master的节点,加入到一个后备list(candidate),判断后备的candidate中是否有配置文件制定最小的master数量,如果没有,返回第一步重新连接,重新执行,满足进入第四步。
4.执行bully选举,从中选取id最大/最小,放到activeMaster(暂定的master),重新执行第一步。
2.1出现宕机时选举逻辑
现役master宕机:
对于其他master来讲,activeMaster空了,执行第三步判断candidate中是否岑仔有效的master数量,进行bully选举。
宕机其他master:
会根据master数量(activeMaster)判断剩余master是否满足最小master数量决定是否可用。