redis-cluster一台机器宕机后集群不可用

最新推荐文章于 2024-10-04 16:00:08 发布

L-Zhang

最新推荐文章于 2024-10-04 16:00:08 发布

阅读量2.6w

点赞数 3

分类专栏：缓存 Redis 文章标签： redis failover

本文链接：https://blog.csdn.net/zlfprogram/article/details/74225305

版权

缓存 Redis 专栏收录该内容

43 篇文章 0 订阅

订阅专栏

redis-cluster一台机器宕机后集群不可用

部署现状：
测试环境部署4台机器，每台机器上启动5个redis实例，总共20个实例；创建集群，10个主，10个从；

问题呈现：
1.测试过程中，kill掉一台机器，集群正常恢复；
2.kill掉的机器和实例重启后，一切正常；
3.测试进行中，又kill掉了一台机器，此时整个集群一直不可用，没有恢复，且有台机器上的实例一直在报错：Error condition on socket for SYNC: Connection refused；
4.只有起来kill掉的Redis实例后集群才恢复正常。

过程分析：
1.Redis集群通过 redis-trib.rb脚本创建；默认会随机平分所有主从实例，假如ABCD四台机器，AB、CD进行配对，A上3个主对应B上3个从，A上2个从对应B上2个主；这样配置减小了宕机造成的机器不可用性；AB两台机器不同时宕机，CD不会同时宕机，集群就可用。
2.测试过程中，kill掉一台机器，此时被kill掉的机器上的主就会飘到从机器上去，恢复集群可用，但要知道此时有一台机器上会都是主；
3.当宕掉的机器起来后，该机器上的实例都为从；此时状况为一台机器上都是主，一台机器上都是从，其他两台为随机；
4.如果在这种状况下，按常理说宕任何一台机器都是没有问题的，当偏偏都是主的那台机器被kill掉了，整个集群不可用了，why？
5.主挂了，可以飘到从啊，从没有飘成功？是，从报错了，没有飘成功，整个集群不可用；
6.主要原因是宕掉的机器上包含了一半主，造成剩下的一半主没有投票成功，整个集群没有正式确认挂掉的主真正挂了；
7.如果此时宕掉的是其他任何一台机器都没有问题；

注意：
建议集群搭建为6台机器，这样不会造成一半主飘到同一台机器上，从而避免挂掉一台机器，整个集群就不可用。

下面是从节点疯狂报的错：

6409:S 03 Jul 15:50:56.330 * Connecting to MASTER 192.168.45.123:7002
6409:S 03 Jul 15:50:56.331 * MASTER <-> SLAVE sync started
6409:S 03 Jul 15:50:56.331 # Error condition on socket for SYNC: Connection refused