线上502问题居然是它导致的!
记一次线上502问题排查过程。现象article-go微服务有请求502,之前稀稀拉拉有少量的502(有同学排查过,未果),但是运维同学最近升级了ingress,502变多了。信息收集大量的TW登录article-go容器,使用lsof -p 1查看进程的fd信息,发现大量的TIME_WAIT。查询了下目标地址,都是ingress pod的地址。首先TIME_WAIT就非常可疑,先看下TCP的四次挥手过程:发现只有客户端的连接状态才可能是TIME_WAIT,我们article_go明明








