阿里云故障,仅是运维操作失误?

6月27日,阿里云出现大范围故障,今天凌晨,阿里云官方微博公布了故障的原因,直接原因是由于"运维操作失误",改进措施是"复盘改进自动化运维技术和发布验证流程"。

能坦诚的公布问题,而不是用系统抖动或者光纤挖断之类的词来敷衍大家,这一点值得肯定。

除了公告提到的增强发布流程验证之外,重新审视系统整体的隔离保护体系我觉得也值得一做。故障的时间偏长,暴露了对突发问题处理手段及预案的匮乏。

一个不断演进的系统,出现问题不可避免,反复的强调或者追求不出问题未必是最佳的方向,让团队具备快速解决问题的能力通常来说更加可行。出了问题后,只要有相应的手段来隔断问题的范围(类似大楼里面的防火门),减少对非故障模块的干扰,通常不会对用户整体造成干扰。

从昨天的情况来看,要么就没有防火门的设计,要么系统有类似的机制,但是处理人员不能熟练地启用。如果是前者,则需要重新审视整体架构,如果是后者,那就是团队内部需要反思的问题。

640?wx_fmt=jpeg

本文由 Tim (微博 @TimYang)投稿,转载本文请注明出处,技术原创及架构实践文章,欢迎通过公众号菜单「联系我们」进行投稿。

高可用架构

改变互联网的构建方式

640?wx_fmt=jpeg

长按二维码 关注「高可用架构」公众号

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值