1、上午9时-10时30分,优化数据库,在linux工作站重启相关服务,验证前端后端正常。
2、上午10时50分左右,机房操作KVM,启动数据库同步系统。回到linux工作站观察数据库运行状态。
3、上午11时40分-50分,验证各个服务正常,打包出门吃饭。
4、13时,接到集成商电话,前端无法访问。
5、13时05分,与用户确认,前端无法访问,后台登录正常。询问集成商,是否有人碰过服务器,是否有人改过防火墙等安全策略,回答不清楚,希望尽快解决。
6、13时40分至14时06分:在linux工作站ssh连接服务器失败,浏览器访问前端无响应。确定服务器整体网络断开,为确定是服务器问题还是因安全管理导致网络断开,进入机房操作:
打开KVM屏幕,无电。问集成商,回答不清楚。转到机柜背面,发现KVM电源被拔掉,全程录像,告知集成商。
继续检查,发现无法访问的服务器的显示器线松动,不像其他服务器是拧紧的状态,于是将其拧紧,全程录像,告知集成商。
回到机柜前面,切换服务器,初无法访问的服务器之外,其他服务器均可以切到登录界面,证明KVM正常,猜测无法访问的服务器已停止响应或者死机,全程录像。
询问集成商,告知不清楚。于是强制启动服务器,可以看到启动界面,直至出现登录窗口,登录后启动服务,所有前端业务正常。
7、回到linux工作站查看前端服务日志,访问日志在12:22至14:06之间内容空白。查看服务器系统日志syslog,内容截止到12点多。
我的判断:因11点左右我在机房操作过服务器,此时服务器业务是正常的,KVM也是正常的。在我离开机房之后,也许在12点 -13点之间,有人进入机房打开我的服务器机柜,进行了一些物理操作,如拔掉KVM电源,接触了服务器的显示器插头等等。恰在此时,某种因素导致前端服务器整体停止服务,包括ssh。
问题解决后,向集成商询问为何KVM会有人拔掉?以及谁在中午进入机房操作我的服务器(此机柜内服务器均为我部署管理,与其他厂商无关)。
集成商回答:
KVM电源拔掉不影响服务器运行(我好像不傻)。
未回答谁在机房操作我的服务器。
认为服务器或者系统有问题,告诉我明日与服务器厂商联合检查服务器。(不抱希望)
2021-08-23
截止9月1日,没拿到分析报告。