昨天下午17:45左右,松勤系统管理员接到学员反馈,松勤网打不开,访问失败。管理员接到通知后火速赶现场(松勤网),情况如学员反馈一样,网站打不开,并且报:“系统内部代码错误”。
松勤网是软件测试在线学习的平台,每天有成百上千的访问量,众多软件测试爱好者都在上面学习视频、电子书。这下无法访问了,情况十分紧急,系统管理员火速展开了工作,如下:
1、松勤网部署在阿里云服务器上,管理员登录阿里云后台,直接切换到系统资源监控板块,但凡系统出现宕机,首先需要排查的就是系统硬件的问题,资源监控面板显示信息,如下图所示:
2、从上图可以看出,系统网络访问量在17:40-17:45,持续了5分钟左右的高峰,对应的系统CPU使用率在17:45分开始,持续了30分钟左右的峰值(100%使用率)。两组数据对比可以判断,CPU的忙碌和网络流量有直接的关联。
3、这个时候管理员脑海里面出现了2个疑问,第一,17:40开始,是什么业务导致了高网络流量;第二,CPU 使用率持续了30分钟的100%,是哪些程序使用了如此多的CPU资源。
4、以上两个问题,都需要登录到松勤网所在的Linux主机上去盘查。于是,管理员通过远程登录工具Putty,通过松勤网ip地址,linux系统的用户名和密码,远程登录到Linux系统&#