时延敏感业务低概率超时问题分析

最新推荐文章于 2024-02-18 10:20:47 发布

云吞铺子

最新推荐文章于 2024-02-18 10:20:47 发布

阅读量906

点赞数 1

分类专栏：技术干货文章标签：阿里云故障排查低概率超时问题时延敏感业务技术大牛

本文链接：https://blog.csdn.net/weixin_44774358/article/details/92623424

版权

本文通过一个客户端查询Redis集群偶发超时的案例，探讨了诊断思路、排查方法和最佳实践。问题源于网卡多队列未开启导致的丢包，以及阿里云跨可用区间链路抖动。解决措施包括开启网卡多队列、调整中断处理及合理部署业务以降低跨可用区影响。

摘要由CSDN通过智能技术生成

前言

作为阿里云底层提供的基础设施，内部的物理网络和许多网络产品在数据平面给客户的可操作性并不高，从一定程度上来说是个黑盒。当然，在传统的IDC环境，业务和物理网络之间也存在同样的隔阂。所以在遇到业务卡顿、延迟、不通等问题的时候，很容易怀疑到网络。因此如何抽丝拨茧，找到正确的方向对症下药才能够真正的解决问题。毕竟“真相只有一个”。

在进行问题排查和处理的时候，难度最高的场景就是极度偶发，复现频率极低的问题。尤其在网络排查的领域，通常为了性能和控制资源消耗，不会将每一个数据包的情况都一一记录下来，对于一次偶发的应用层记录的超时，网络层通常没有明确的对应此次应用层调用的包交互记录，因此排查起来非常困难。

在这次的案例中，我们通过一个客户端查询redis集群偶发超时的小案例，来说明一些诊断思路、排查手段，进而引出一些在网络方面提高业务稳定性的最佳实践。

问题环境

这次的问题是一个交互性web应用中的一个子模块，主要进行redis查询，可以简单将其理解为视频弹幕网站中“查询弹幕”的小模块。这个模块的拓扑非常简单：
在这里插入图片描述
在上面的拓扑中，客户使用ECS构建了一个Redis集群，前面用Codis实现了一层Redis Proxy （为了通用性，后面均用Redis proxy来描述），并将这组Redis proxy挂载在一个SLB后，通过SLB的单一入口提供服务。