Orchestrator介绍四-失败/故障检测

当主副本“过载”，即连接数过多，客户端会看到 "Too many connections"的提示，但是很久之前已经连接好的从副本连接主副本正常。类似的，主库由于元数据锁导致客户端连接被阻塞，而从副本复制正常。然而，由于应用程序无法连接到主服务器，因此不会写入任何实际数据，并且当使用诸如 pt-heartbeat 之类的心跳机制时，我们可以观察到副本上的滞后越来越大。

Orc如何处理这种场景：

Orchestrator 会将所有连接主副本的直接副本重新启动复制来应对这种情况。这将关闭这些从副本上的旧客户端连接并尝试启动新的连接。这些现在可能无法连接，导致所有副本上的完全复制失败。就变为DeadMaster的场景。

`LockedSemiSyncMaster`

MySQL主库开启了半同步复制（rpl_semi_sync_master_enabled=1）
连接的半同步复制的从副本数量小于rpl_semi_sync_master_wait_for_slave_count参数设置的值
rpl_semi_sync_master_timeout参数设置的足够大从而master 写锁也不会退化为异步复制

这种情况仅在经过（ReasonableLockedSemiSyncMasterSeconds）时间之后触发。如果未设置 ReasonableLockedSemiSyncMasterSeconds，则在（ReasonableReplicationLagSeconds）时间之后触发。

对于这种情况的纠正措施可以是在主服务器上禁用半同步，或者启动（或启用）足够数量的半同步复制副本。

如果启用了EnforceExactSemiSyncReplicas，orchestrator将确定所需的半同步拓扑，并在副本上启用/禁用半同步，以使其与所需拓扑相匹配。所需的拓扑由优先级顺序（见下文）和主服务器等待副本数定义。

如果启用了RecoverLockedSemiSyncMaster，orchestrator将按照优先级顺序在副本上启用半同步（但永远不会禁用），直到半同步复制副本的数量与主服务器等待副本数匹配。请注意，如果设置了EnforceExactSemiSyncReplicas，则RecoverLockedSemiSyncMaster不会产生任何效果

优先级顺序由DetectSemiSyncEnforcedQuery（数字越大，优先级越高）、晋升规则（DetectPromotionRuleQuery）和主机名（备用）定义。

如果EnforceExactSemiSyncReplicas和RecoverLockedSemiSyncMaster都被禁用（默认情况下），orchestrator不会对此类分析调用任何恢复过程。

请同时查阅半同步复制拓扑文档以获取更多详细信息。

几个参数解释：

rpl_semi_sync_master_enabled 半同步是否开启在主库上配置

rpl_semi_sync_master_wait_for_slave_count 当启用半同步复制时，主服务器等待的从服务器确认的数量

rpl_semi_sync_master_timeout 用于设置主服务器在等待从服务器确认时的超时时间。

`MasterWithTooManySemiSyncReplicas`

MySQL主库开启了半同步复制（rpl_semi_sync_master_enabled=1）
部分开启了半同步复制的从副本已经超过了rpl_semi_sync_master_wait_for_slave_count参数设置的值
EnforceExactSemiSyncReplicas 已启用（如果未启用此标志，则不会触发此分析）

待补充

不会被认为失败/故障的场景

简单的复制异常
复制延迟

进行失败/故障分析的方法

命令行：orchestrator-client -c replication-analysis 或orchestrator -c replication-analysis
web API /api/replication-analysis
网页：/web/clusters-analysis/页面 ( Clusters-> Failure analysis)。这提供了一个不完整的问题列表，仅突出显示可操作的问题。