混沌工程
文章平均质量分 88
混沌工程介绍及工具使用
alden_ygq
一枚北漂5年多的资深SRE菜鸟,专注SRE方向,专注于运维体系建设。个人宣言:先努力成就自己,再用知识成就他人。
展开
-
如何做好一次故障演练?
了解了为什么需要进行故障演练,接下来了解一下什么是故障演练?故障演练是应用系统高可用能力测评的核心,也是验证系统稳定性的核心能力,一次完整的故障演练是由演练的对象、对象发生的具体故障、应用的预期故障应对表现、对应用表现的实际观察和判断几部分组成。是否达到预期目标 预案有无生效 业务流程是否按预期运转 机器负载是否正常是否有预期之外的现象发生关键指标(业务指标、机器负载指标)收集整理整理后续改进点。原创 2023-04-14 23:54:05 · 357 阅读 · 0 评论 -
如何使用混沌工程应对未知故障?
混沌工程 (Chaos Engineering) 是通过主动向系统中引入软件或硬件的异常状态 (扰动),制造故障场景,并根据系统在各种压力下的行为表现,确定优化策略的一种系统性稳定性保障手段。是软件应用中常见的检测系统稳定性的一种方式。“混沌工程是一种确保减轻故障影响的实验”。也有人将混沌工程比作疫苗,通过 “接种疫苗” 的方式,让系统具备抵挡 “重大疾病” 的能力。原创 2023-04-13 20:23:35 · 155 阅读 · 0 评论