如何做好一次故障演练？

alden_ygq

已于 2023-04-14 23:54:32 修改

阅读量533

点赞数

分类专栏：混沌工程文章标签：数据库

于 2023-04-14 23:54:05 首次发布

本文链接：https://blog.csdn.net/ygq13572549874/article/details/130163911

版权

混沌工程专栏收录该内容

2 篇文章

订阅专栏

1 为什么要进行故障演练？

互联网行业在发展过程中，诞生很多出名的业务产品，如支付宝、淘宝、微信等几乎全民皆用的产品。但伴随着用户不断增长，业务产品技术层面出现了众多挑战，如海量请求、节假日峰值流量和与日俱增的系统复杂度，导致了很多预料之中以及意料之外的各种故障。在很多场景下，由于缺少故障处理预案或预案本身可靠性问题，及技术人员缺乏故障处理经验，造成故障发生时，技术人员在报警轰炸中自乱阵脚，延误故障的最佳处理时机。特别是从未出现过的异常故障，一旦出现，会直接对技术人员心里造成恐慌，措手不及，不知所措。

那么业务系统架构是否足够健壮？是否有足够的能力去应对故障的发生？故障来临时会出现什么情况？如何去应对？为什么没有事前预料这些异常情况？有什么方法能够预知或提前检测这些异常情况呢？这是技术团队需要在平日的工作中需要前置考虑的问题，而不是当故障来临时才去验证这些问题，因为风险太大，成本太大。综上所述，提前模拟产生各种任何可能发生的故障，来观察系统的反应，验证预期策略是尤为必要的。那么故障演练的目标是什么呢？

总结一下，故障演练主要有以下几个目标：

确保系统按我们预想的方式应对故障
寻找系统中未预料到的弱点
寻找其他提高系统稳定性的方式来避免事故实际发生
验证监控报警的覆盖率与及时性、准确性。

理想的故障演练结果是形成流程化：

例行化故障演练
监控报警覆盖并及时触发报警
根据故障信息找出系统风险点
优化业务系统
产出可行有效的故障处理预案

2 什么是故障演练？

了解了为什么需要进行故障演练，接下来了解一下什么是故障演练？

故障演练是应用系统高可用能力测评的核心，也是验证系统稳定性的核心能力，一次完整的故障演练是由演练的对象、对象发生的具体故障、应用的预期故障应对表现、对应用表现的实际观察和判断几部分组成。

2.1 演练对象

演练对象即演练的靶场，即可以针对应用本身，也可以针对应用下游，还可以针对应用系统所在机器。

2.2 演练对象发生的具体故障

常见的故障类型有以下一些：

故障类型	举例
依赖RPC服务故障	超时/不可用，连接池无可用连接
中间件故障	Kafka 超时/不可用，Redis超时/不可用
基础设施故障	数据库超时/不可用，DNS 超时/不可用
机器故障	CPU 满载，网卡流量满载，网络中断，机器宕机，机房断电，磁盘空间满载
异常流量	入口流量激增，流量掉零