阿里云大故障后问责机制来了

上一篇《从阿里云大故障看稳定性》提到稳定性要做好很关键的一个点,就是:自上而下的认可

目前看来阿里云在此次大故障后,管理层自顶向下形成了一定的责任机制,将故障和高层管理者的奖金直接挂钩,这或许可以逼着管理层从KPI设定上开始有意识的重视稳定性工作。对自上而下的认可有帮助。


一个超级大故障,其实是层层安全防线都被击穿,说明系统脆弱性极强。

第一层:应急快反被击穿

系统优先做好业务和资源的梳理和分级,核心业务一定要配置好监控、告警、演练常态化,形成应急机制、巡检机制,出现问题可快速发现、快速预案、快速恢复;

这一层基本上可以挡掉20%的故障

第二层:规范被击穿

优先提升稳定性意识,做好变更管控、流程规范;

比如变更管控规范、分析设计规范、发布评审规范、CR规范都要非常严谨细致;

这一层可以挡住70%的故障

第三层:架构被击穿

核心业务(会影响到大量客户)设计上尽可能遵循高可用几大原则,比如少依赖原则、弱依赖原则、自保护原则、去单点原则、分散原则、隔离原则、均衡原则;

这一层重点在于规避大故障,理论值上分析是可以最大程度规避超大故障的


分享我了解到的几个关于建设稳定性怪象

一、稳定性建设搞成运动式

出一次大故障,从上到下开始各种复盘,纠错,定责,然后再起稳定性战役,领导们以为和营收战役一样,战役包治百病,只要战役一结束,目标达成,这个事情也就成功了结束了。

然而稳定性最关键的还是做在平时,每一次的变更是否充分分析稳定性风险,做好规范约束,架构上有没有破坏高可用原则,全链路有没有引入高风险依赖,这些不是一次战役就能解决的问题。

做成运动式,会导致周期性大故障,一旦运动停了,没人关注了,稳定性又回退了。

二、稳定性做好是应该的做不好得挨板子

稳定性是生命线,所有人都在大喊这句话,似乎很是重视,但在奖惩上又显得异常矛盾,守护如此重要的生命线,只有惩没有奖?不过我作为管理者,对我团队做稳定性的同学,始终坚持自己的理念,充分看见这件事背后的辛苦,对他们只会做奖励上的倾斜,相反一些非低级问题导致的故障却不会追责。

三、稳定性建设要自证价值

很容易被一些不太懂技术的同事问道:你们不是做过稳定性战役吗?怎么还有稳定性的事情?稳定性投入的人力什么时候可以释放出来?

除了有大流量高并发经验的技术同学外,其他人很难理解:稳定性是一个长期持久的事情,只要流量在上涨,客户在增加,业务在丰富,那么稳定性的事情就不会中断。

业务能力建设的价值,只要业务做成了,客户使用了,促进营收,价值自然凸显;

遗憾的是,稳定先建设的价值,没法通过你做好了,不出故障进行证明,因为大家默认这是应该的。通常只有出故障了,才能唤醒大家对稳定性建设价值的认可。

四、稳定性累心累力很难被看见

保障高并发系统稳定运行意味着多少水下面的工作,其实没有体验过是很难理解的,这其中会承受的稳定性高压、繁琐的运维工作、监控告警24小时应急、日常设计全面风险把控等等,这所有的事情都没法像做业务那样容易被看见。


最后,稳定性到底该怎么投入?

一、先判断稳定性是否作为产品核心竞争力

如果是,那么就要坚定信念,持续不断地建设

如果不是,没有必要过度投入,还是要充分考虑ROI

二、如何平衡稳定性和业务支撑?

稳定性是底盘,保障一定比例持续投入,比例情况视稳定性水位而定

同时也要支撑好业务发展,毕竟商业的价值是服务客户,产生营收

三、如何激发稳定性建设持续的活力?

尊重和看见是对稳定性人最好的激励

做得好要充分认可和激励

平时小问题不放过、大问题轻轻过

稳定性意识绑在脑门上

文章来源:阿里云大故障后问责机制来了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值