时间:2023年9月18日,星期一
事情经过:周末度过一个无钉钉报警的周末,作为一个老末运维,狠感欣慰。2023年9月18日,周一上班,有人反馈生产环境已经登录不了,陆陆续续反馈人越来越多,感觉大事不妙,脊背发凉,所有的网站和平台。
于是首先打开代理服务器,发现nginx已挂(docker部署),进程已kill掉。
docker提示:failed to start daemon: Error initializing network controller: error obtaining controller instance: failed to create NAT chain DOCKER: Iptables not found
首先发现的问题:
0、prometheus和grafana、AlertManager全挂了。赶紧启动监控报警,10台同时爆cpu。
1、有10台服务器持续报警、有docker服务的全挂了。
2、iptables被强制删除了。