Redis 除了具有非常高的性能之外,还需要保证高可用,在故障发生时,尽可能地降低故障带来的影响,Redis提供了哨兵模式,来进行故障恢复。
哨兵主要负责做三件事:
①监控,监控主、从节点是否正常运行
②选主,Sentinel集群需要选择一个Leader来进行主从切换。
③通知,选主完成后,需要把新主库的连接信息通知给从库和客户端。
1.状态感知
哨兵启动后只指定了master的地址,要想知道整个集群中完整的拓扑关系怎么做呢?
哨兵每隔10秒会向每个master节点发送 info 命令, info 命令返回的信息中,包含了主从拓扑关系,其中包括每个slave的地址和端口号。有了这些信息后,哨兵就会记住这些节点的拓扑信息,在后续发生故障时,选择合适的slave节点进行故障恢复。
那么有小伙伴会问,哨兵之间是如何通信的呢?
基于Redis提供的发布(pub)/订阅(sub)机制完成的。哨兵节点不会直接与其他哨兵节点建立连接, 而是首先会和主库建立起连接 ,然后向一个名为" sentinel:hello"频道发送自己的信息(IP 和端口),其他订阅了该频道的哨兵节点就会获取到该哨兵节点信息