事故是这样的,我下午那会给服务器做检查,看/tmp文件夹下有没有木马可疑文件,但是sess_710788523371dd1ed1这类文件特别多,打开目录特别慢,所以我就把sess_开头的文件都给删了,因为这些都是自动生成的,删除没有影响,但是有一个sess_587icm79pm9l9r0uqa4cd9so54 这个文件是上锁的,无法删除,只能添加,初步怀疑是黑客残留的后门,因为其他服务器的这些sess_开头的文件也都是自动生成的,不会加锁,然后我就给解锁删除了,最后我看了下目录下的文件和目录没发现可疑的文件。
后来几分钟后客服反馈网站打不开,我看了眼,提示服务器错误500,然后我就开始排查问题,先确定是不是nginx 的问题,一般情况下不会是nginx的问题,临时创建了个静态html,访问正常,可以排除nginx 的问题了,接下来就是php的问题了,只要是动态文件都不行,由于是线上服务器,有两个版本php,一个是端口模式,一个是socket模式,先将网站切到另一个版本的php试试,切过去之后就好了,但是过了1小时之后客服反馈又打不开了,我看了眼,服务器负载飙高到700%,在服务器执行个ls都卡半天,应该是php导致的,我就放大招,pgrep php|xrags kill -9 ,索性先干掉看看负载降下来没有,干掉后负载立马降下来了,思考了一下认为可能是进程数导致的,于是我就将进程数扩大了一倍,然后启动,负载正常,我以为安全了,可是过了一会之后客服又反馈了,我看了眼,