告警风暴
随着业务系统接入越拉越多,告警配置也会越来越多;如果出现故障,故障影响模块过多、相关人员关注的模块越多,必然会造成告警风暴。
怎么解决呢?
合理的配置告警告警降噪,防抖动,比如连续出现多少次告警才认为有问题关注各自的告警模块、核心的告警指标推送到值班大群周知告警聚合,可能会导致告警稍微延迟一下根因定位,直接给出根因压测期间告警处理
压测很容易搞出事情来,我们需要实时监控我们的系统运行情况,一般我们会抽取相关的大盘,然后在压测期间统一关注,我们可以考虑关闭电话告警,来防止骚扰。
保留普通的社交软件通知,比如我们办公软件、微信、钉钉等。
告警治理
为什么要进行告警治理?
接入的业务系统增多、告警数量增多告警推送出去是否有人看到了,是否有人在处理,原因是什么?告警闭环,只有闭环才能有始有终
告警治理的是什么?
无效的告警、告警风暴告警回执率过低,告警率过高
如何进行告警治理?
统计分析,按部门、小组统计告警数量、回执数量,提供日报、周报、实时报表说明告警治理的好处,比如减少无效告警,我们可以防骚扰,防恐慌等等拉值班群,拉上层,借势推告警治理