信息系统故障分析案例---------记一次性能检测系统故障排查

         2018年10月10日凌晨2点接到信调值班员电话,单位信息运维统一监管(I6XXX)系统报警显示公司门户和网站系统性能检测报警,页面访问响应时长和模拟登录功能异常,实际情况是网站和门户系统运行正常,稍有宽心,现在单位运行指标考核太变态,压力太大啊。立即开始协调人员进行故障排查,涉及门户、网站、性能检测、I6000系统运维人员,还有可能涉及网络,现在系统部署结构都很复杂,想想头大,现梳理一下整个故障排查处理过程,总结经验教训,给运维人生留下一丝丝痕迹。

   一、系统部署架构及数据流分析

    

 

          由于是二级单位且规模较小(与5年前相比,主要的都一级部署了,混的越来越差了),所有监控都由总部统一检测,自己没有权限,很被动啊。本单位的系统如门户、网站、信息通信管理等系统在本地部署,在本地部署一套检测点,检测的数据统一上报到总部,总部性能检测汇总数据到运维统一监管系统集中展示,总部值班人员24小时值班监控,本地也有值班人员访问总部运维统一监管系统进行24小时检测。

           二、故障排查分析

 10月10日凌晨发生的告警是间断性的,一会正常一会异常,参与性能检测的系统有多套,只有门户、网站系统间断性的,对问题判断带来一定的难度。根据经验进行排查吧。

  1. 先由门户、网站管理员到现场进行系统排查,同时协调性能检测运维人员配合,确认门户网站系统本身是正常运行的,然后确认每一个检测URL是否正常,确认没有问题。
  2. 排查性能检测服务器,确认其中一台服务器的操作系统运行缓慢,初步确认可能存问题,但是其他几个系统没有问题,不是很确认,所以同时进行其他方面排查。
  3. 排查备份系统,确认备份系统是否影响带网络带宽,此前有过类似的问题,备份任务执行时占用了大部分带宽,导致网络很慢,最终确认备份正常。
  4. 使用分析工具,通过性能分析系统进行分析,发现性能检测服务器请求门户和完整URL响应时长很长,但是用户终端访问门户、网站都很正常,初步确定是性能检测服务器有问题。
  5. 决定重启性能检测服务器,观察再看看,经过一段时间运行各检测点都正常。

开始分析性能检测服务器运行日志,发现是性能检测服务器需要调用windows的WMI服务,而该服务按照安全整改要求已经关闭了,长时间调用失败,耗尽系统资源导致操作系统运行缓慢,所以出现间歇性异常。

        三、经验总结

  1. 该问题排查时间较长,定位问题过程不明确,涉及到关联其他系统,导致整个处理过程持续近10个小时以上,还好上级监控值班人员对此项运行指标考核较松,未记录运行异常事件。
  2. 长时间未发生信息系统异常事件,人员思想意识有松懈,出现电话联系不上运维人员的情况。性能检测系统正式运行在2个月左右,运维人员对系统整个运行、配置情况不太熟,耽误了问题的排查时间。
  3. 由于非正常的信息化项目实施的系统,整个要求和管理上不到位,平时没有对该服务器进行巡检和监控,操作系统运行缓慢而没有发现。
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值