学方法、寻根因、获成长

A系统于2019年7月完成验收进入运维阶段,截止目前已经运维近3年时间。

在2022年6月3日突发系统无法登录问题,导致客户无法正常工作。当即,项目团队在技术中心的支持下进行了紧急处理,历时3小时系统恢复正常使用。针对本次事故,PMO组织公司运维项目总负责人万某、运维项目驻场负责人周某一道采用“5WHY”分析法对该事件进行了根因分析。

问题

原因

处理措施

1.为什么系统无法登录?

系统登录时无法连接到服务器。

(1)开启日志文件定时清理任务程序;
(2)完善项目组运维手册,补充nginx服务器维护相关内容;
(3)公司层面进一步规范“工作交接”流程以及对应制度;

2.为什么系统登录时无法连接到服务器?

服务器响应请求后拒绝连接。

3.为什么服务器响应请求后会拒绝连接?

nginx转发服务器失去连接,tomcat服务器无法获取到MES登录系统请求。

4.为什么nginx转发服务器失去连接?

nginx服务器本身磁盘空间不足,处理请求时产生错误,无法转发请求。

5.为什么nginx服务器本身磁盘空间不足?

日志文件没有被及时清理。

6-1.为什么nginx服务器日志文件没有被及时清理?

nginx服务器定时任务路径错误,导致定时任务没有执行。

6-2.为什么没有发现nginx服务器日志没有被清理?

之前项目相关负责人没有对nginx服务器进行定期维护。

7.为什么没有发现nginx服务器定时任务路径错误?

之前项目相关负责人没有对nginx服务器进行定期维护。

8.为什么负责人没有定期对nginx服务器进行维护?

负责人没有掌握nginx服务器相关内容。

9.为什么负责人没有掌握nginx服务器相关内容?

项目运维手册内容不完整,没有包含nginx服务器维护相关内容

服务器部署完成后,工作交接不到位,相关信息没有完整的进行继承

问题

原因

处理措施

1.为什么没有对事故进行预防?

项目组没有提前制定对应的应急预案。

(1)协同技术中心一并整理输出该事故应急预案,并进行验证

2.为什么没有准备登录系统应急预案?

登录系统属于公司平台内部封装代码,项目组没有单独准备应急预案,平台也未提供对应的应急预案。

3、为什么平台未提供应急预案?

之前未发生类似问题,未能识别出该类情况,从而导致未能提前准备应急预案。

采用“5WHY”分析法,项目组由浅入深找到了问题出现的真正根源,提出了切实可行的处理措施,避免了后续隐患;同时为公司管理体系的改进提供了宝贵建议。在此,希望大家在遇到问题的时候,像A项目组一样积极的正视问题,科学的解决问题。大家在遇到问题的时候,反复学习与实践该案例的分析方法,能够大幅提升分析问题、解决问题的能力。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值