文章目录
1、哨兵的三个定时任务
-
1、每个哨兵每10秒会向主节点和从节点发送info命令获取最新的拓扑结构图,哨兵配置时只需要配置对主节点的监控即可,通过向主节点发送info,获取从节点的信息,并当有新的从节点加入时可以马上感知。
-
2、每个哨兵节点每隔2秒会向redis数据节点的指定频道上(sentinel:hello)发送该哨兵节点对于主节点的判断以及当前哨兵节点的信息,同时每个哨兵节点也会订阅该频道,来了解其他哨兵节点的信息以及对主节点的判断。
信息补充:虽然sentinel集群中每个sentinel都互相连接彼此来检查对方的可用性以及互相发送消息。但是你不用在任何一个sentinel配置任何其他的snetinel节点。因为sentinel利用了master的发布/订阅机制去自动发现其它监控了统一master的sentinel节点。
- 3、每隔1秒每个哨兵会向主节点、从节点、其他哨兵发送ping命令,做心跳检测。
2、 主观下线(SDOWN)和客观下线(ODOWN)
- 主观下线:根据定时任务3对没有有效回复的节点做主观下线处理。
- 客观下线:若主观下线的是主节点,会联系其他哨兵对此主节点进行判断,一定数量(一半以上吧)的哨兵达成一致意见才认为一个master客观上已经宕机掉,各个哨兵之间通过命令SENTINELis_master_down_by_addr来获得其它哨兵对master的检测结果。
3、选举Leader哨兵,来进行故障转移
(1)Raft简单介绍
哨兵的选举采用的是Raft算法,Raft是一个用户管理日志一致性的协议,它将分布式一致性问题分解为多个子问题:Leader选举、日志复制、安全性、日志压缩等。Raft将系统中的角色分为领导者(Leader)、跟从者(Follower)和候选者(Candidate):
- Leader:接受客户端请求,并向Follower同步请求日式,当日志同步到大多数节点上后告诉Follower提交日志。
- Follower:接受并持久化Leader同步的日志,在Leader告知日志可以提交之后,提交日志。
- Candidate:Leader选举过程中的临时角色。
(2) Term(任期)
在分布式系统中,各个节点的时间同步是一个很大的难题,但是为了识别过期时间,时间信息有必不可少。Raft协议为了解决这个问题,引入了term(任期)的概念。
Raft算法将时间划分为任意不同长度的任期(term)。任期用连续的数字进行表示。每一个任期的开始都是一次选举(election),一个或多个候选人会试图成为领导人,如果一个候选人赢得了选举,它就会在该任期的剩余时间担任领导人。在某些情况下,选票会被瓜分,有可能没有选出领导人,那么将会开始另一个任期,并且立刻开始下一次选举。Raft算法保证在给定的一个任期内最多是有一个领导人。
(3) RPC
Raft算法中服务器节点之间通信使用远程过程调用(RPC),并且基本的一致性算法只需要两种类型的RPC,为了在服务器之间传输快照增加了第三种 RPC。
- RequestVote RPC:候选人在选举期间发起。
- AppendEntries RPC:领导人发起的一种心跳机制,复制日志也在该命令中完成。
- InstallSnapshot RPC:领导者使用该RPC来发送快照给太落后的追随者。
(4) 选举流程
redis中的纪元(epoch):使用了类似于Raft算法term(任期)的概念称为epoch(纪元),用来给时间增加版本号。主要有两种:
- currentEpoch:它的作用在于,当集群的状态发生改变,某个节点为了执行一些动作需要寻求其他节点的统一时,就会增加currentEpoch的值。目前curretnEpoch只用于slabe的故障转移流程。
- configEpoch:这是一个集群节点配置相关的概念,每个集群节点都有自己独一无二的configepoch,所谓的节点配置,实际上是指节点所负责的槽位信息。每一个master在向其他节点发送包时,都会附带其configEpoch信息,以及一份表示它负责的slots信息。
- 1、某个Sentinel认定master客观下线的节点后,该Sentinel会先看看自己有没有投过票,如果自己已经投过票给其他Sentinel了,在2倍故障转移的超时时间自己就不会成为Leader。相当于它是一个Follower。
- 2、如果该Sentinel还没投过票,那么它就成为Candidate。
- 3、和Raft协议描述的一样,成为Candidate,Sentinel需要完成几件事情
- 1)更新故障转移状态为start
- 2)当前epoch加1,相当于进入一个新term,在Sentinel中epoch就是Raft协议中的term。
- 3)更新自己的超时时间为当前时间随机加上一段时间,随机时间为1s内的随机毫秒数。
- 4)向其他节点发送is-master-down-by-addr命令请求投票。命令会带上自己的epoch。
- 5)给自己投一票,在Sentinel中,投票的方式是把自己master结构体里的leader和leader_epoch改成投给的Sentinel和它的epoch。
- 4、其他Sentinel会收到Candidate的is-master-down-by-addr命令。如果Sentinel当前epoch和Candidate传给他的epoch一样,说明他已经把自己master结构体里的leader和leader_epoch改成其他Candidate,相当于把票投给了其他Candidate。投过票给别的Sentinel后,在当前epoch内自己就只能成为Follower。
- 5、Candidate会不断的统计自己的票数,直到他发现认同他成为Leader的票数超过一半而且超过它配置的quorum(quorum可以参考《redis sentinel设计与实现》)。Sentinel比Raft协议增加了quorum,这样一个Sentinel能否当选Leader还取决于它配置的quorum。
- 6、如果在一个选举时间内,Candidate没有获得超过一半且超过它配置的quorum的票数,自己的这次选举就失败了。
- 7、如果在一个epoch内,没有一个Candidate获得更多的票数。那么等待超过2倍故障转移的超时时间后,Candidate增加epoch重新投票。
- 8、如果某个Candidate获得超过一半且超过它配置的quorum的票数,那么它就成为了Leader。
- 9、与Raft协议不同,Leader并不会把自己成为Leader的消息发给其他Sentinel。其他Sentinel等待Leader从slave选出master后,检测到新的master正常工作后,就会去掉客观下线的标识,从而不需要进入故障转移流程。
大致简单过程
1、每个做主观下线的sentinel节点像其他sentinel节点发送命令,要求将自己设置为领导者
2、接收到的sentinel可以同意或者拒绝
3、如果该sentinel节点发现自己的票数已经超过半数并且超过了quorum
4、如果此过程选举出了多个领导者,那么将等待一段时重新进行选举
4、主节点选取
-
选择健康状态从节点(排除主观下线、断线),排除5秒钟没有心跳的、排除主节点失联超过10*down-after-millisecends。
-
选择最高优先级中复制偏移量最大的从机。
-
如果还没有选出来,则按照ID排序,获取运行ID最小的从节点。
5、故障转移
- sentinel的领导者从从机中选举出合适的丛机进行故障转移
- 对选取的从节点进行slave of no one命令,(这个命令用来让从机关闭复制功能,并从从机变为主机)
- 更新应用程序段的链接到新的主节点
- 对其他从节点变更master为新的节点
- 修复原来的master并将其设置为新的master的从机