服务上线到预发环境引起线上问题排查

最新推荐文章于 2024-09-11 15:06:38 发布

zhanglehes

最新推荐文章于 2024-09-11 15:06:38 发布

阅读量315

点赞数

分类专栏：线上问题分析文章标签：服务器运维

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhanglehes/article/details/125085493

版权

线上问题分析专栏收录该内容

11 篇文章

订阅专栏

概述

目前从事的轨迹流服务，它是双机房多节点部署的。除了正式环境以外，还包括若干预发环境。本次事故介绍的是在预发环境上线出现的问题，解决办法和分析手段。

事故

服务A预发环境共有8台服务器，我先部署了三台。突然接收到线上正式A服务环境发出的报警，内容是存在部分下游机器的发送队列buffer超过阈值。当时没多想，先直接回滚代码。

后来分析，线上A服务均会向其预发环境发送数据（引流），发送逻辑是：遍历所有的预发服务机器，如果在buffer中的数据量小于设定阈值，则选取该机器，否则判断下一个；若都超过阈值，则会选取最后一个机器；因此线上服务发现新上的三台预发服务处理慢时，它会把请求打向其它未升级的正常预发服务。所幸的是，这次事故因此未对线上流量造成影响。

现象

更新的三台预发服务器，接收到的流量减半

其它服务器接收到的流量上升

从监控中看到每次tpc请求的时间开销是4ms，这表示新升级服务的处理速度变慢

问题分析

首先使用pstack命令，发现很多线程停留的位置都和一把锁相关。

A服务代码中有个全局的monitor，做相关数据的统计。有一把全局锁保护相关数据的更新。

本项目添加的代码中，有一部分更新的代码被“错误”的放入全局锁的作用域范围内了。导致锁作用的时间变长，线程间强锁的问题更加激烈。间接也导致了消息处理速度变慢。

问题修复

将所有更新的代码均挪到全局锁的作用范围之外。

数据对比

最大吞吐量比较

可见问题得到解决

总结

A服务存在一个全局锁，各线程间的碰撞较强。新添加的代码加重的锁的碰撞，造成吞吐量的下降。从cpu利用率上也能看出，cpu利用率远远没有达到饱和，这也间接说明了并没算力的原因造成的。

博客等级

码龄14年

155
原创

165
点赞

343
收藏

104
粉丝

关注

私信

热门文章

分类专栏

线上问题分析 11篇
git 2篇
数学 9篇
源码分析 18篇
操作系统 18篇
路径规划 7篇
技术心得 3篇
golang深入 18篇
通信协议 1篇
golang标准库 3篇
golang读书笔记 8篇
golang
golang常用库 1篇
leecode 5篇
lua 2篇
c++ 33篇
数据结构 2篇
python 5篇
算法 9篇
linux 7篇
架构 30篇
网络编程 3篇
zookeeper 4篇

最新评论

隐马尔可夫模型在map-matching中的应用
苏颜蒙: 转移概率矩阵不对了吧，横向概率和应该是1才对
Golang Http RoundTrip解析
Chenal两个维度: 引用「numExpectedResponses」 1、numExpectedResponses 从上下文看这个字段的功能应该是发出请求后期望得到应答的次数。 2、在readLoop中，如果是初次请求numExpectedResponses ==0的判断正常来说会立刻进入，导致pconn关闭（net.conn伴随关闭），这个成员之后在后续的调用次序中的(pc *persistConn) roundTrip函数中才会++，所以必然有其它措施防止进入该判断>>关注到该判断之前有peek()调用数据，因为还未发起请求所以peek调用内会触发bufio的fill，这个方法会连续尝试100次数据读取，触发的是(pc *persistConn) Read>>net.conn.read，tcp传输层的read一般都是堵塞的，所以100次等待足够到(pc *persistConn) roundTrip执行，所以避免了关闭（除非极度异常的情况下） >>>numExpectedResponses==0的含义可能不是sever端断开链接，而是等待足够久后还未接收到应答数据。
kafka-go源码解析三（Reader）
sunshine tome: 如果是多个分区就需要开启多个reader吗
C++ json-cpp库的基本使用方法
蛋超饭不要加蛋: 支持博主，已三连
C++编译时遇到protobuf版本不一致的问题
zhanglehes: 那可能是你新加入的项目的protoc版本和项目已有的版本不兼容

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。