AIOps前沿分享 | ICSE SEIP 2020:告警风暴摘要

ICSE SEIP 2020的论文“Understanding and Handing Alert Storm for Online Service Systems”,核心是对告警风暴做实时检测和摘要。也就是说,对海量告警做降噪和聚类,减少工程师需要查看的告警数量,以便快速定位问题。

一般情况下,当应用服务出现故障时,会伴随着大量的告警,告警风暴便产生了。因为告警风暴的告警数量非常大,如果运维工程师手工检查每一条告警,系统排障过程会耗费大量的时间和精力。

在这里插入图片描述

为了保证服务质量,处置告警风暴至关重要。论文中,我们主要回答了“告警风暴中到底发生了什么故障”“哪些告警与故障相关”“告警风暴的核心内容是什么”等问题。

那么,目前现状是什么,又遇到了哪些挑战?其一,告警风暴出现的频率很高,大约每周一次,这是运维工程师的真实痛点;其二,当前对告警风暴的识别方法,一般是人工设置固定阈值,但这种方法不能适应动态的在线服务场景;其三,告警风暴中包含一部分与故障无关的常规告警,并且许多与故障相关的告警也存在关联关系,比如说文本相关性和拓扑相关性。

在这里插入图片描述

我们遇到的挑战在于:固定阈值的告警风暴检测方法表现不好,混杂在故障中的不相关告警影响排障,需要做告警降噪,告警之间复杂的关联关系也需要建模来精炼。

我们的论文工作包括告警风暴检测和告警风暴摘要两大部分。

第一部分告警风暴检测,需要知道什么时间发生了告警风暴。其实监控的是告警数量,将告警风暴检测转化为一个突变点检测,使用EVT去自适应准确检测告警风暴。下图中右上角的曲线表示每天告警产生的数量,可以自动检测到告警数量的突增情况。

在这里插入图片描述

第二部分,告警风暴摘要。准确检测到告警风暴发生后,需要做三个步骤:基于学习的告警降噪,将告警风暴中与此次故障无关的告警全部删除;差异化的告警聚类,总结告警里有多少告警簇;代表性告警选择,在每一个簇找到代表性的告警选择,减少工程师看的数量。最终的目的是通过告警风暴摘要,选取出与故障相关的告警集合,并且这些告警能够从多方面反映故障。

下图是告警风暴里面的一些告警,告警降噪会去掉无关的告警,告警聚类对它们进行分类,针对每一个簇选择有代表性的告警。最后,成百上千个告警只呈现出几个告警,极大加快了运维的排障效率。
在这里插入图片描述

下面详细介绍告警风暴摘要的三个步骤。

步骤一:基于机器学习的告警降噪。我们将它定义成异常检测的问题,这是比较巧妙的做法。因为故障不常发生,经常发生的告警和这次故障没有关系。经常发生的告警有点像我们在异常检测里定义的日常情况,而不经常发生的罕见告警有点像我们定义的异常情况。我们使用isolation forest方式检测到的罕见告警,更有可能和故障相关。这一过程中,我们对告警进行了很多属性提取和特征统计。

在这里插入图片描述

步骤二:经过告警降噪过滤后,剩下的告警去做告警聚类,这里我们使用了DBSCAN聚类方法。对聚类的度量,也就是相似性度量,我们考虑了文本相似性和拓扑相关性。文本相似性使用了Jaccard距离;拓扑相关性方面,定义了软件层面和硬件部署层面两种拓扑,使用它们相连的最短路径去刻画拓扑相关性。

步骤三:有了告警相关性,我们使用聚类方法得到告警的类,每一类均代表对故障的描述,选择一个聚类中心来作为代表性的告警。

在这里插入图片描述

我们在真实环境中166个告警风暴案例上做了测试,可以发现:从检测方面来看,极值理论的告警风暴检测比固定阈值方法要好;从摘要的方向来看,告警摘要算法能显著减少工程师需要查看的告警数量,并且推荐的告警与故障相关的准确率达到75%,极大缩小了查看的范围,有助于经验聚焦得到有意义的告警。

为什么选择isolation forest?为什么选择DBSCAN?通过对比一些常见的聚类方法、异常检测方法,可以发现我们选择的方法比现有方法都好。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值