2018年10月10日凌晨2点接到信调值班员电话,单位信息运维统一监管(I6XXX)系统报警显示公司门户和网站系统性能检测报警,页面访问响应时长和模拟登录功能异常,实际情况是网站和门户系统运行正常,稍有宽心,现在单位运行指标考核太变态,压力太大啊。立即开始协调人员进行故障排查,涉及门户、网站、性能检测、I6000系统运维人员,还有可能涉及网络,现在系统部署结构都很复杂,想想头大,现梳理一下整个故障排查处理过程,总结经验教训,给运维人生留下一丝丝痕迹。
一、系统部署架构及数据流分析
由于是二级单位且规模较小(与5年前相比,主要的都一级部署了,混的越来越差了),所有监控都由总部统一检测,自己没有权限,很被动啊。本单位的系统如门户、网站、信息通信管理等系统在本地部署,在本地部署一套检测点,检测的数据统一上报到总部,总部性能检测汇总数据到运维统一监管系统集中展示,总部值班人员24小时值班监控,本地也有值班人员访问总部运维统一监管系统进行24小时检测。
二、故障排查分析