阿里云故障，仅是运维操作失误？

最新推荐文章于 2024-07-18 11:42:22 发布

高可用架构

最新推荐文章于 2024-07-18 11:42:22 发布

阅读量112

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45583158/article/details/100143396

版权

6月27日，阿里云出现大范围故障，今天凌晨，阿里云官方微博公布了故障的原因，直接原因是由于"运维操作失误"，改进措施是"复盘改进自动化运维技术和发布验证流程"。

能坦诚的公布问题，而不是用系统抖动或者光纤挖断之类的词来敷衍大家，这一点值得肯定。

除了公告提到的增强发布流程验证之外，重新审视系统整体的隔离保护体系我觉得也值得一做。故障的时间偏长，暴露了对突发问题处理手段及预案的匮乏。

一个不断演进的系统，出现问题不可避免，反复的强调或者追求不出问题未必是最佳的方向，让团队具备快速解决问题的能力通常来说更加可行。出了问题后，只要有相应的手段来隔断问题的范围（类似大楼里面的防火门），减少对非故障模块的干扰，通常不会对用户整体造成干扰。

从昨天的情况来看，要么就没有防火门的设计，要么系统有类似的机制，但是处理人员不能熟练地启用。如果是前者，则需要重新审视整体架构，如果是后者，那就是团队内部需要反思的问题。

640?wx_fmt=jpeg

本文由 Tim （微博 @TimYang）投稿，转载本文请注明出处，技术原创及架构实践文章，欢迎通过公众号菜单「联系我们」进行投稿。

高可用架构

改变互联网的构建方式

长按二维码关注「高可用架构」公众号

高可用架构

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。