秒杀系统设计（三）解决高可用问题

最新推荐文章于 2024-05-18 07:30:00 发布

加班狗的微博

最新推荐文章于 2024-05-18 07:30:00 发布

阅读量277

点赞数

文章标签：秒杀

本文链接：https://blog.csdn.net/zhangdx001/article/details/107022491

版权

大型分布式系统在实际运行过程中面对的工况是非常复杂的，业务流量的突增、依赖服务的不稳定、应用自身的瓶颈、物理资源的损坏等方方面面都会对系统的运行带来大大小小的的冲击。

对于秒杀的目标场景，最终能够抢到商品的人数是固定的，无论 100 人和 10000 人参加结果都是一样的，即有效请求额度是有限的。

并发度越高，无效请求也就越多。但秒杀作为一种商业营销手段，活动开始之前是希望有更多的人来刷页面，只是真正开始后，秒杀请求不是越多越好。因此系统可以设计一些规则，人为的延缓秒杀请求，甚至可以过滤掉一些无效请求。

通过答题提升购买的复杂度防止作弊和延缓请求。

防止作弊：存在恶意买家或竞争对手使用秒杀器扫货的情况，商家没有达到营销的目的，所以增加答题来进行限制
延缓请求：零点流量的起效时间是毫秒级的，答题可以人为拉长峰值下单的时长，由之前的 <1s 延长到 <10s。这个时间对于服务端非常重要，会大大减轻高峰期并发压力。由于请求具有先后顺序，答题后置的请求到来时可能已经没有库存了，因此根本无法下单，此阶段落到数据层真正的写也就非常有限了。

通过把同步的直接调用转换成异步的间接推送缓冲瞬时流量。

排队方式的弊端也是显而易见

过滤的核心结构在于分层，通过在不同层次过滤掉无效请求，达到数据读写的精准触发。过滤的核心目的是通过减少无效请求的数据 IO 保障有效请求的 IO 性能。

常见的过滤主要有以下几层：

对于日常运维而言，高可用更多是针对运行阶段而言的，此阶段需要额外进行加强建设，主要有以下几种手段：

预防：建立常态压测体系，定期对服务进行单点压测以及全链路压测，摸排水位
管控：做好线上运行的降级、限流和熔断保护。需要注意的是，无论是限流、降级还是熔断，对业务都是有损的，所以在进行操作前，一定要和上下游业务确认好再进行。就拿限流来说，哪些业务可以限、什么情况下限、限流时间多长、什么情况下进行恢复，都要和业务方反复确认
监控：建立性能基线，记录性能的变化趋势；建立报警体系，发现问题及时预警
恢复：遇到故障能够及时止损，并提供快速的数据订正工具，不一定要好，但一定要有