你真的懂服务的容错性设计吗(1)

最新推荐文章于 2023-03-25 19:00:00 发布

小李哥编程

最新推荐文章于 2023-03-25 19:00:00 发布

阅读量698

点赞数

文章标签： java 分布式容错设计故障恢复故障转移

本文链接：https://blog.csdn.net/weixin_45701550/article/details/128514161

版权

什么是服务容错性

我们在工作中经常会遇到系统故障，服务异常等情况，尤其是在大型分布式系统中，随着微服务的数据量不断增多，服务出现异常的概率也在不断增加，想必没有一个老铁敢保证自己开发的服务不会出现异常。既然我们无法保证服务不会出现异常，那么在系统设计的时候，就要多花一点时间，来考虑系统出现异常时，如何进行异常处理，让异常对整个系统的影响降到最低，尽量让用户无感知，这也就是本篇文章讨论的重点内容，服务的容错性设计。

服务容错性策略有哪些

服务的容错性设计其实是提升服务可用性的一种手段，提升服务可用性的方案通常有两种：事前预防和事后处理。

事前预防：常用的事前预防手段是副本冗余机制，对副本机制不了解的小伙伴可以参考“副本机制在kafka中的实践”。很多公司的事前预防解决方案是这样的：给服务添加丰富的指标监控，如服务的负载监控，服务异常告警，同时给服务设置一些扩缩容的配置，比如cpu，内存负载超过70%时，会触发扩容操作，防止服务面临超过预期的突发请求时，导致大部分请求直至超时都无法完成处理，甚至导致服务崩溃，影响系统的可用性。

事后处理：更多的是在研究当服务出现异常时候该怎么做的问题，其目标主要是：当服务出现异常时，如何让异常的影响达到最小，如何让服务自动恢复尽量让用户无感知，这个也是服务容错性设计重点，对于常用的服务容错策略，主要有以下几种：

故障转移(Failover)

故障转移是指，如果被调用的服务器出现故障，系统不会立即向调用者返回失败结果，而是自动切换到其他服务副本，尝试其他副本能否返回成功调用的结果，从而保证了整体的高可用性。

故障转移的容错策略应该有一定的调用次数限制，比如允许最多重试三个服务，如果都发生报错，那还是会返回调用失败。引入调用次数的限制，不仅是因为重试有执行成本，更是因为过度的重试反而可能让系统处于更加不利的状况。

我们看一个例子。现在有 Service A → Service B → Service C 这么一条调用链。假设 A 的超时阈值为 100 毫秒，而 B 调用 C 需要 60 毫秒，然后不幸失败了，这时候做故障转移其实已经没有太大意义了。因为即使下一次调用能够返回正确结果，也很可能同样需要耗费 60 毫秒的时间，时间总和就已经超过了 Service A 的超时阈值。所以，在这种情况下故障转移反而对系统是不利的。