现象:生产环境网站接口监控报大量超时告警
排查:
查看是否属于异常攻击
1、查看公网slb带宽使用情况
2、查看nginx日志,看是否有异常流量
查看服务器及服务状态
1、查看nginx服务器资源cpu使用情况
2、查看nginx服务状态(ps -ef|grep nginx)
发现大量worker process is shutting down的进程状态
原因分析
nginx新配置了一个域名,有websocket的长连接,生产发布时,nginx热加载reload后,长连接一直处于连接中未断开,导致nginx reload的时候一直处于这个状态,把系统负载打满了
解决:
nginx.conf配置文件中增加worker_shutdown_timeout 10;