蚂蚁一面：小伙子，说一下MySQL 如何保证高可用？

本文链接：https://blog.csdn.net/weixin_53185946/article/details/124333441

本文探讨了MySQL如何实现高可用性，重点分析了主从同步的原理、存在的主从延迟问题及其解决方案，并介绍了在主从切换时的可靠性优先与可用性优先策略，同时提出了应对主从延迟的各种策略。

摘要由CSDN通过智能技术生成

一、引子

关于，MySQL 怎么保证高可用呢？
为了提高 MySQL 的读写性能，我们往往采用 MySQL 一主多从的方案。
即一个主库（主要负责写），多个从库（只负责读）。
因为单实例有性能瓶颈，多从库能优先解决 MySQL 的读负载压力。

将 MySQL 设计成一主多从模式。

简单来说，主要分为三步：

详细来说，

Master 与 Slave 之间会维护一个长连接，专门用来同步binlog。

创建从库的过程：

在 Slave 机器上，通过 change master 命令，设置主库的 IP、端口号、用户名、密码，以及binlog 从哪里开始获取等信息（具体binlog文件名 + 文件偏移量）。
在 Slave 机器上，执行start slave命令，启动 io_thread 和 sql_thread 线程。
其中 io_thread 用于接收主库的 binlog，sql_thread 用于处理主库的 binlog。
Slave 开始尝试连接 Master，Master 校验完用户名密码后，dump_thread 根据 Slave 设置的 binlog 文件和偏移量，开始读取 binlog 发送给 Slave。
Slave 的 io_thread 将接收到的 binlog 写到 relay log （中转日志）。
sql_thread 读取中转日志，执行对应SQL，同步完成。

即“同步延迟”。
表示同一个事务下，主库执行完成到备库执行完成的时间差值。

时间线：

所谓主从延迟，就是 T3-T1 的时间。

如果在这段时间里，在从库上查询主库刚插入/修改的数据，会出现主从不一致的现象。
这时，一些对可靠性要求比较高的业务场景里，就会出现错误。
我们可以在从库上执行：

show slave status;

其中，seconds_behind_master 就是从库延迟的时间（T3-T1）

主从延迟的根本原因是：从库消费中转日志（relay log）的速度比主库生产 binlog 的速度慢。

在实际场景下，可能会遇到主库所在机器异常、掉电、或者机房升级等等。
这就会涉及到“主库”与“从库”之间的切换问题。
由于主从延迟的存在，在主从切换的时候，就会有不同的策略。

查询 slave 的 seconds_behind_master，如果小于预定的某个值（比如3秒），就下一步。
否则就一直轮训，直到出现满足条件的Slave。（选未来主库）
将 master 的 readonly = true，降为从库。
查询该 slave（未来主库）的 seconds_behind_master 值变成 0。（即无主从延迟）
将该 slave （未来主库）的状态变成读写。readonly = false，升成主库。
将请求流量切到新主库。