哨兵简介
主机master"宕机"
- 将宕机的master下线
- 找一个slave作为master
- 通知所有的slave连接新的master
- 启动新的master与slave
- 全量复制*N+ 部分复制*N
哨兵
哨兵(sentine)是一个分布式系统,用于对主从结构中的每台服务器进行 监控,当出现
故障时通过投票机制 选择 新的master并将所有slave连接到新的master.
(图:哨兵简介-监控选择)
图片来源于网络
哨兵的作用:
-
监控
不断的检查master和slave是否正常运行。
master存活检测、master与slave运行情况检测 -
通知(提醒)
当被监控的服务器出现问题时,向其他(哨兵间、客户端)发送通知 -
自动故障转移
断开master与slave连接,选取一个slave作为master,将其他slave连接到新的master,并告知客户端新的服务器地址.注意:
哨兵也是一台redis服务器,只是不提供数据服务
通常哨兵配置数量为 单数
启用哨兵模式
配置哨兵
-
配置一拖二的主从结构
-
配置三个哨兵(配置相同,端口不同)
参看sentinel.confbash-4.2$ cat sentinel.conf | grep -v "#" | grep -v "^$" port 26379 dir /tmp sentinel monitor mymaster 127.0.0.1 6379 2 sentinel down-after-milliseconds mymaster 30000 sentinel parallel-syncs mymaster 1 sentinel failover-timeout mymaster 180000
-
启动哨兵
redis-sentinel sentinel-端口号.conf
哨兵工作原理
主从切换
哨兵在进行主从切换过程中经历三个阶段
- 监控
同步信息的 - 通知
保持联通 - 故障转移
- 发现问题
- 竞选负责人
- 优选新master
- 新master上任,其他slave切换master,原master作为slave故障回复后连接
阶段一:监控阶段
用于同步各个节点的状态信息
- 获取各个sentine的状态(是否在线)
- 获取master的状态
- master属性
- runid
- role:master
- 各个slave的详细信息
- 获取所有slave的状态(根据master中的slave信息)
- slave属性
- runid
- role:slave
- master_host、master_port
- offset
- …
(图:监控阶段)
(图:监控阶段2)
图片来源于网络
图片来源于网络
阶段二:通知阶段
(图:通知阶段)
图片来源于网络
故障转移阶段
超过半数的sentinel认为master挂了才认为它挂了o_down
(图:故障转移阶段)
图片来源于网络
(图:sentinel投票机制进行处置工作)
图片来源于网络
被选出的sentinel进行处置工作
服务器列表中挑选备选的master
- 在线的(pass掉不在线的)
- 响应慢的(pass掉响应速度慢的)
- 与原master断开时间久的(pass掉断开时间久的)
- 优先原则
- 优先级
- offset
- runid
发送指令(sentinel)
- 向新的master发送slaveof no one
- 向其他slave发送slaveof新masterIP端口