故障报告
文章平均质量分 92
️nanjingfm
谋定而后动 https://github.com/go-xman
展开
-
线上502问题居然是它导致的!
记一次线上502问题排查过程。现象article-go微服务有请求502,之前稀稀拉拉有少量的502(有同学排查过,未果),但是运维同学最近升级了ingress,502变多了。信息收集大量的TW登录article-go容器,使用lsof -p 1查看进程的fd信息,发现大量的TIME_WAIT。查询了下目标地址,都是ingress pod的地址。首先TIME_WAIT就非常可疑,先看下TCP的四次挥手过程:发现只有客户端的连接状态才可能是TIME_WAIT,我们article_go明明原创 2021-10-12 17:06:55 · 725 阅读 · 0 评论 -
翻车了,记一次线上事故
关键词:golang、go、gorm、零值、有担当的富人翻车日期:2021.03.04翻车现场今天下午3:30有同事反馈,app冷启动出现了测试公告弹窗。画外音:半小时前刚更新一个服务,赶紧检查下配置吧。事件回述10:27:代码发布sandbox环境10:27~11:30:测试配置导入(因为配置比较多)生产环境,并手动修改少量差异配置11:30~11:50:sandbox环境验收完成11:51: api开始灰度12:46: 灰度结束,api全量发布15:00: 优化配置解析,重原创 2021-03-04 20:59:56 · 350 阅读 · 1 评论