作者:焦振清
时间:2017-11-24
下方的表格是对于某个问题的记录,半年内,记录在案的共计21次。大家可能觉得说,不可思议,其实,只要问题不是故障,很多时候,就是这样的。大家想想,家里灯泡坏了,或者水龙头松了,我们一定会立即修理吗,可能是某次夜里摔倒了,或者水龙头漏水了,才会让我们立即进行修复的。
这个问题在七月份一共发生了9次,占总量比例为42.86%,且月末有5天连续发生问题,共计发生了6次,那些抱有侥幸心理的人,就是下面的感受了
2017/7/28 第一次!
2017/7/29 第二次,连着两天了!!这叫又!
2017/7/29 第三次,连着两天了,一天内两次了!!!这叫又双!
2017/7/30 第四次,连着三天了!!!这叫又双叒!
2017/7/30 第五次,连着三天了,再一次一天两次了!!!这叫又双叒叕!
2017/7/31 第六次了!!!!!!这叫又双叒叕?!还得再造一个字
这个问题在五天内连续发生了六次,相关的人员也直接懵了,因为该问题的修复成本高,迁移成本高,但问题的影响并不严重,因此之前的进展不是特别的理想,经此一役后,大家耗费了非常多的人力,加紧修复和迁移。尽管在20170804墨菲同学再一次问候了大家,但是之后,保持了接近两个半月的风平浪静,后面,这类问题再也没有如此严峻了,即使有问题,各类上下游也均具备了服务预案,之后,对业务,基本无损了。
这个case告诉我们,任何事情,不要抱有幻想,说只是偶然。如果是问题,对服务有影响,按照重要性排序,将最重要的问题投入人力进行修复吧,不要等到墨菲同学问候我们了,就有点晚了,所幸,上面的问题,对服务没有致命的伤害,只是用户体验下降,如果是致命伤呢,大家辛辛苦苦一整年,一夜回到解放前,全年积攒的SLA,有可能被某个问题直接就破功了。而且,如果是致命伤,这么连续不断的发生,相信很多人会崩溃的,那时候,可能会引发更严重的事故。
问题发生时间
2017/11/20
2017/11/3
2017/10/26
2017/10/18
2017/8/4
2017/7/31
2017/7/30
2017/7/30
2017/7/29
2017/7/29
2017/7/28
2017/7/20
2017/7/11
2017/7/9
2017/5/28
2017/5/26
2017/4/19
2017/4/18
2017/3/30
2017/1/22
2017/1/18