A系统于2019年7月完成验收进入运维阶段,截止目前已经运维近3年时间。
在2022年6月3日突发系统无法登录问题,导致客户无法正常工作。当即,项目团队在技术中心的支持下进行了紧急处理,历时3小时系统恢复正常使用。针对本次事故,PMO组织公司运维项目总负责人万某、运维项目驻场负责人周某一道采用“5WHY”分析法对该事件进行了根因分析。
问题 | 原因 | 处理措施 |
1.为什么系统无法登录? | 系统登录时无法连接到服务器。 | (1)开启日志文件定时清理任务程序; |
2.为什么系统登录时无法连接到服务器? | 服务器响应请求后拒绝连接。 | |
3.为什么服务器响应请求后会拒绝连接? | nginx转发服务器失去连接,tomcat服务器无法获取到MES登录系统请求。 | |
4.为什么nginx转发服务器失去连接? | nginx服务器本身磁盘空间不足,处理请求时产生错误,无法转发请求。 | |
5.为什么nginx服务器本身磁盘空间不足? | 日志文件没有被及时清理。 | |
6-1.为什么nginx服务器日志文件没有被及时清理? | nginx服务器定时任务路径错误,导致定时任务没有执行。 | |
6-2.为什么没有发现nginx服务器日志没有被清理? | 之前项目相关负责人没有对nginx服务器进行定期维护。 | |
7.为什么没有发现nginx服务器定时任务路径错误? | 之前项目相关负责人没有对nginx服务器进行定期维护。 | |
8.为什么负责人没有定期对nginx服务器进行维护? | 负责人没有掌握nginx服务器相关内容。 | |
9.为什么负责人没有掌握nginx服务器相关内容? | 项目运维手册内容不完整,没有包含nginx服务器维护相关内容 | |
服务器部署完成后,工作交接不到位,相关信息没有完整的进行继承 | ||
问题 | 原因 | 处理措施 |
1.为什么没有对事故进行预防? | 项目组没有提前制定对应的应急预案。 | (1)协同技术中心一并整理输出该事故应急预案,并进行验证 |
2.为什么没有准备登录系统应急预案? | 登录系统属于公司平台内部封装代码,项目组没有单独准备应急预案,平台也未提供对应的应急预案。 | |
3、为什么平台未提供应急预案? | 之前未发生类似问题,未能识别出该类情况,从而导致未能提前准备应急预案。 |
采用“5WHY”分析法,项目组由浅入深找到了问题出现的真正根源,提出了切实可行的处理措施,避免了后续隐患;同时为公司管理体系的改进提供了宝贵建议。在此,希望大家在遇到问题的时候,像A项目组一样积极的正视问题,科学的解决问题。大家在遇到问题的时候,反复学习与实践该案例的分析方法,能够大幅提升分析问题、解决问题的能力。