告警系统的一些痛点思考

  

告警系统的一些痛点思考

  告警风暴

  随着业务系统接入越拉越多,告警配置也会越来越多;如果出现故障,故障影响模块过多、相关人员关注的模块越多,必然会造成告警风暴。

  怎么解决呢?

  合理的配置告警告警降噪,防抖动,比如连续出现多少次告警才认为有问题关注各自的告警模块、核心的告警指标推送到值班大群周知告警聚合,可能会导致告警稍微延迟一下根因定位,直接给出根因压测期间告警处理

  压测很容易搞出事情来,我们需要实时监控我们的系统运行情况,一般我们会抽取相关的大盘,然后在压测期间统一关注,我们可以考虑关闭电话告警,来防止骚扰。

  保留普通的社交软件通知,比如我们办公软件、微信、钉钉等。

  告警治理

  为什么要进行告警治理?

  接入的业务系统增多、告警数量增多告警推送出去是否有人看到了,是否有人在处理,原因是什么?告警闭环,只有闭环才能有始有终

  告警治理的是什么?

  无效的告警、告警风暴告警回执率过低,告警率过高

  如何进行告警治理?

  统计分析,按部门、小组统计告警数量、回执数量,提供日报、周报、实时报表说明告警治理的好处,比如减少无效告警,我们可以防骚扰,防恐慌等等拉值班群,拉上层,借势推告警治理

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值