谈谈监控体系建设—监控告警指标运营(二)

监控告警运营的目标

1,通过数字,客观反应监控对象覆盖情况,监控对象的采集数据质量
2,通过数字,客观的反应告警情况,告警的运行质量
下文根据这两个目标,探讨如何设置合理的运营指标可以反映现状,并可以指导监控系统可以持续改进

运营指标设定

  • 覆盖率
    定义:
    监控的对象占所有的需要监控对象的比例,单位%
    计算公式:
    在这里插入图片描述
    需要监控的对象需要从CMDB中来,包括不限于生产上使用的活跃对象
    常规提升方法:
    1,流程驱动,在对象的上线或者下线流程,嵌入监控的环节,达到实时监控的目的,这是主要方式
    2,兜底方案,周期性全量和增量扫描CMDB的生产中的对象,把新增的对象加入到监控列表中,过期的对象清理掉,由于扫描的是全量对象,所以一般对实时性要求不高,作为兜底方案运行。
    衍生指标:
    如果对生产的对象用途和所属组织进行一些聚合,可以衍生出一些其他需要关注的指标,比如核心系统的监控覆盖率,mysql监控覆盖率,XXX组织的监控覆盖率等等,定义和提升方法和上面类似,这里不赘述。

  • 采集率
    定义:一定周期内(一般是24小时)采集上来的数据占需要采集数据的比例,单位%。
    计算公式:
    在这里插入图片描述

    常规提升方法:
    采集率是衡量监控数据质量的重要指标,当采集率低到0%时,则退化为这个监控对象未覆盖,提升采集率需要全流程去考虑,从采集的agent,到数据的处理,存储等等
    衍生指标:
    和覆盖率类似,采集率也可以按照场景和组织进行聚合,主机采集率,XXX组织采集率等等

  • 告警及时率
    定义:从产生告警到通知到用户所需时间在告警规范的时间内的告警比例,告警及时率主要衡量告警时效的指标,根据公司的业务特性,可以设定告警规范时间,一般在一分钟左右,如果有一些特殊要求,比如需要告警收敛,那么这个时间可以适当延长
    单位%
    计算公式:
    在这里插入图片描述

    常规提升方法:
    我们不需要所有告警都需要及时通知,可以根据告警的级别进一步细分,提升关键告警的及时率,同时,程序尽量采用事件触发,少采用job方式轮巡。
    衍生指标:
    同步及时率,通知及时率,自动通知及时率,人工通知及时率等

  • 告警处理及时率
    定义:在规范时间内告警被及时解决占所有告警的比例,通过告警及时率来衡量用户对告警的反应时效和处理时效,单位%
    计算公式:
    在这里插入图片描述

    常规提升方法:
    和告警通知及时率类似,首先要细分场景,有些告警处理时间需要很长,例如硬件故障等等,根据告警的优先级,哪些告警需要更加及时的处理,提升告警自动处理,也有助于这个指标的达成。
    衍生指标:
    告警受理及时率,告警自动处理率等等

其他指标

还有一些其他的指标,可以参考
告警降噪率:通过技术方式(告警屏蔽,收敛,根因)等方式,减少的告警比例
告警量:一般会看总量和人均需要处理的告警量
自动通知率:有多少告警是系统自动找到处理人通知的,与之对应的是人工通知率

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值