架构师管理心理--错误要区分正常和异常

关注我,持续分享逻辑思维&管理思维&面试题; 可提供大厂面试辅导、及定制化求职/在职/管理/架构辅导;
有意找工作的同学,请参考博主的原创:《面试官心得--面试前应该如何准备》,《面试官心得--面试时如何进行自我介绍》, 《做好面试准备,迎接2024金三银四》。
图解《程序员面试常见的十大算法》及代码实现

-------------------------------------正文----------------------------------------

经常在公司的告警群,收到告警消息后,责任人回复:这是正常的,因为XXX原因,这是误告警。然后大家如释重负,继续该干嘛就干嘛。
貌似大家对误告警,并没有很上心。

其实这是很错误的认知。

关注博主的读者知道,博主管理过存储团队。在存储系统中,有几种情况,是不能支持的,需要返回错误,一是记录太大(一般存储系统都有最大大小。如需更大的数据支持,需要在上层做新的一层应用支持,或要求用户拆分数据)。二是触发限流,如短时间单个用户上传太多,容易影响其它用户。当然,还有种情况是在读数据的时候需要返回错误:就是数据不存在。

在系统上线之初,经常会有各种错误告警,每次触发告警,都有一堆人紧张的要死,然后去排查。排查发现是误告警,大家就松一口气,然后回复老板:这都是正常的错误。

一段时间后,我发现系统的口碑不是很好,有用户(调用方)反馈系统偶尔不可用。我突然发现,用户在存取时,偶发的错误,和上述正常的错误,混在一起,大家忽略了。导致系统真实的错误没有得到应有的重视,从而把问题掩盖了。

错误需要区分正常和异常。正常的错误,即是用户错误使用导致的错误; 异常的错误,即是系统本身的问题导致的错误。异常错误,是系统的问题,需要我们去定位、解决。这个量虽然不大,但每出现一次,都要引起我们的重视的;正常错误区分开来的好处:1,减少误告警。正常错误就不应该告警,否则太多告警,运维容易懈怠,以后再出现告警,就容易忽略,引发重大故障;2,有些正常错误也不正常,需要去分析,比如如果一个业务有大量的限流错误,是需要我们去找业务讨论扩容。但这类错误,可以离线分析,不需要实时干预。3,能获得比较准确的运维指标,比如可用率,比如延时。有时正常错误反而会让你的数据更好看。比如触发限流,此时数据并不会到达存储层,直接在网关层就返回了,所以这个请求的延时会很快,容易错误地以为自己的系统真的这么牛逼(大量快速返回的请求)。

常见的需要区分出来的正常错误:
1.存储系统中,数据不存在。有可能是业务没写入。(当然,如果索引存在,数据读不出来,这是异常错误)。
2.存储系统中文件过大。
3.业务限流。
4.搜索场景中,用户输入的语法错误。
等。

感兴趣的同学辛苦 关注/点赞 ,持续分享逻辑、算法、管理、技术、人工智能相关的文章。

博主其它经典原创:《管理心得--如何高效进行跨部门合作》,《技术心得--如何成为优秀的架构师》、《管理心得--如何成为优秀的架构师》、《管理心理--程序员如何选择职业赛道》,及
C#实例:SQL如何添加数据》,《C#实战分享--爬虫的基础原理及实现》欢迎大家阅读。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

借雨醉东风

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值