线上故障突突突?如何紧急诊断、排查与恢复

概述

稳定性大于一切,因此我们需要有更有效的方式避免线上故障。在发生故障不可避免的假设下,我们需要能够快速修复,减少线上影响。基于以上这些想法,我们提出了 1-5-10 的快恢目标,所谓 1-5-10 的目标就是是要我们对于线上问题能够做到 1 分钟发现,5 分钟定位,10 分钟修复。下面将会介绍一些阿里云上关于故障恢复、诊断的一些最佳实践。

1 分钟发现

监控

监控的作用一句话概括就是:发现应用中的问题,并将问题及时告警给技术人员进行处理。监控类型可以分为系统问题的监控与业务问题的监控,系统问题:常见的软硬件相关问题,比如程序异常,内存 fullGC 等,由于没有业务特征,监控策略可适用于各个应用。业务问题:在特定业务场景下定义的问题,比如商品无优惠券,权益超发问题等,需要根据业务特征来定制监控策略。

阿里云实时应用监控服务 ARMS 能够自动发现和监控应用代码中常见的 Web 框架和 RPC 框架,并统计接口的调用量、响应时间、错误数等指标。同时可以进一步获取接口的慢 SQL、MQ 堆积分析报表或者异常分类报表,对错、慢等常见问题进行更细致的分析。

ARMS 还提供了业务监控的能力,以代码无侵入的方式,可视化定义业务请求,提供贴合业务的丰富性能指标与诊断能力。从业务视角衡量应用性能和稳定性的新方式,对业务的关键交易进行全链路的监控。业务监控通过追踪并采集应用程序中的业务信息,实时展现业务级的指标,例如业务的响应时长、次数和错误率,解决了应用程序和业务表现之间无法映射关联的难题。

对于监控的要求有以下三点。实时:要求对问题的发现和预警是实时的,缩短问题产生和发现的时延;准确:要求监控和预警是准确的,包括对监控问题的定义,对预警阀值,预警等级,责任人的配置,避免误报;全面:要求预警信息是全面的,能够帮助排查和解决问题。

“不论应用出现任何问题,ARMS 都可以清楚地展示问题出在哪一行代码。ARMS 对于我们非常重要,大大缩短了修复故障的时间,显著提升了用户体验。自从用了 ARMS,我们能及时发现和修复问题,再也不会被用户投诉所困扰。” —— 华润万家

告警

当监控发现有问题的时候,就需要通过不同等级的告警将问题及时告警给技术人员进行处理。ARMS 告警管理能从以下几点来提升系统的运维效率。

  • 集成事件后管理更高效。
    • 告警管理默认支持一键化集成阿里云常见的监控工具,并支持更多的监控工具手动接入,方便统一维护。
    • 事件接入模块稳定,能提供 7x24 小时的无间断事件处理服务。
    • 处理海量事件数据时可以保证低延时。
  • 及时准确地将告警通知给联系人。
    • 配置通知规则,对事件合并后再发送告警通知,减少运维人员出现通知疲劳的情况。
    • 根据告警的紧急程度选择邮件、短信、电话、钉钉等不同的通知方式,来提醒联系人处理告警。
    • 通过升级通知对长时间没有处理的告警进行多次提醒,保证告警及时解决。
  • 帮助您快速便捷地管理告警。
    • 联系人能通过钉钉随时处理告警。
    • 使用通用告警格式,联系人能更好的分析告警。
    • 多个联系人通过钉钉协同处理。
  • 统计告警数据,实时分析处理情况,改进告警处理效率。

5 分钟定位故障

服务实例隔离与诊断

在线上微服务场景中,当服务提供者的某些实例出现异常时,一方面,需要避免服务消费者访

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值