1 项目背景
某市新型冠状病毒肺炎疫情防控工作领导小组开会明确全面复工复产时间点和任务安排,大数据中心要求保障防疫相关的扫码等服务系统稳定运行,支撑人民群众有序复工复产。
复工复产迫在眉急,加固健康码等服务系统稳定性。确保全市民众通过健康码有序复工复产。成为市大数据中心当前重保的第一要务。
2 客户痛点
● 系统故障频发,且无法第一时间发现问题,更多依赖人工上报和客户投诉。系统存在瓶颈,访问流量高峰期容易出现系统变慢、无法访问等问题。
● 客户系统复杂、底层服务厂商众多,缺少端到端的全链路监控工具,出现故障后定位问题困难。
● 缺乏系统化体系化的故障处理机制,无法有效协同各厂商快速处理故障。故障发生后,存在各厂商相互推卸责任的现象,影响故障恢复时长。
3 核心需求
● 保障系统核心业务的稳定性,实现业务丝滑顺畅,有效支撑全市民众有序地复工复产;
● 第一时间发现问题,发现问题时及时响应、快速故障定因、定位、定责,形成标准化的梯队,确保故障快速发现,快速恢复。
4 全链路监控方案建设
(1)前期梳理
● 架构梳理
输入:清楚客户现有的业务链路,从各个业务开始端到后端业务走过的业务流,各个业务链路上应用开发语言、框架、QPS评估。
输出:确定统一运维可观测产品的部署架构,各个应用的监控手段、监控覆盖范围。
● 关键接口梳理
输入:应用的拓扑架构,各个应用核心的业务接口、使用中间件情况、核心应用部署的服务器。
输出:大屏、中屏的基础设计
● 故障等级梳理
输入:应用的拓扑架构,各个应用核心的业务接口、使用中间件情况、核心应用部署的服务器。
输出:大屏、中屏、小屏的基础设计。大屏是以业务指标建立起来的业务视角,支撑业务方决策;中屏是应用视角,建立应用的全景监控,方便快速定位问题;小屏是给值班工程师盯屏使用,作用是及时发现故障和同步故障信息,便于团队间协作。
(2)建设方案
全链路方案——通过全链路监控平台实现客户业务平台监控运维的数字化、标准化、统一化,使后端业务系统的性能看得见、异常告得出来、问题定位得到。
平台业务APP端到端监控方案——客户不仅需要从平台之间的全景监控同时需要对各个应用监控,平台应用的监控主要涉及网络保障、分钟级监控,监控范围包括应用所有服务调用,支持多种告警渠道。
(3)全景观测、实时告警、故障紧急预案
全景观测至——根据实际情况的考查结果后续以小屏、中屏、大屏建立三屏一体的可观测体系。
面对在客户平台每日阶段性业务访问暴增问题,制定应急预案并且规范执行是产品稳定性重要保证。
Step1:部署架构资源规格与配置项检查来保障资源的稳定支持。
Step2:敲定变更以及变更的统一负责来避免执行带来不必要系统故障;整理各组件重要一级指标实时监控盯盘。
Step3:制定大促保障作战手册并规范执行。
5 结果与价值
1、实现核心业务指标可视化,实时展现系统运行情况,以全局视角观察业务的运行状态。
2、全面接入整个应用链路上的各个组件监控数据,包括前端页面和APP、后端服务、底层基础资源,实现了系统的全链路监控和告警。任何组件的异常都能快速发现。
3、通过链路追踪技术,能精确定位到系统异常的根本原因,帮助系统快速恢复。
这个项目中,通过充分利用可观测套件产品的全链路监控能力,有效地保障了客户防疫相关系统的稳定运行,帮助复工复产工作有序开展。此次的建设方案再一次证明了可观测产品及安全生产解决方案可行性和有效性,成为业务战略落地的有效手段。利用此次战略为至高点,为全国范围的大数据场景打造可观测样板间;客户亲眼见证了我们讲述的可观测解决方案运用到成功的落地,并帮助客户在保障业务健康稳定运行。让客户和前线看到了安全生产的价值,坚定了信心,也为后续的客户落地提供最佳实践参考,让我们对未来通过安全生产做出客户价值更加笃定。
袋鼠云旗下可观测运维专家。云掣因“云”而生,懂云更会用云。想了解或咨询更多有关云掣产品、服务、客户案例的朋友,戳我进入云掣官网