AIOps前沿分享 | ICSE SEIP 2020：告警风暴摘要

BizSeer必示科技

于 2021-04-08 10:16:01 发布

阅读量1k

点赞数

分类专栏：技术干货文章标签：大数据算法机器学习数据挖掘

本文链接：https://blog.csdn.net/weixin_52705010/article/details/115489335

版权

技术干货专栏收录该内容

17 篇文章 5 订阅

订阅专栏

ICSE SEIP 2020的论文“Understanding and Handing Alert Storm for Online Service Systems”，核心是对告警风暴做实时检测和摘要。也就是说，对海量告警做降噪和聚类，减少工程师需要查看的告警数量，以便快速定位问题。

一般情况下，当应用服务出现故障时，会伴随着大量的告警，告警风暴便产生了。因为告警风暴的告警数量非常大，如果运维工程师手工检查每一条告警，系统排障过程会耗费大量的时间和精力。

在这里插入图片描述

为了保证服务质量，处置告警风暴至关重要。论文中，我们主要回答了“告警风暴中到底发生了什么故障”“哪些告警与故障相关”“告警风暴的核心内容是什么”等问题。

那么，目前现状是什么，又遇到了哪些挑战？其一，告警风暴出现的频率很高，大约每周一次，这是运维工程师的真实痛点；其二，当前对告警风暴的识别方法，一般是人工设置固定阈值，但这种方法不能适应动态的在线服务场景；其三，告警风暴中包含一部分与故障无关的常规告警，并且许多与故障相关的告警也存在关联关系，比如说文本相关性和拓扑相关性。

在这里插入图片描述

我们遇到的挑战在于：固定阈值的告警风暴检测方法表现不好，混杂在故障中的不相关告警影响排障，需要做告警降噪，告警之间复杂的关联关系也需要建模来精炼。

我们的论文工作包括告警风暴检测和告警风暴摘要两大部分。

第一部分告警风暴检测，需要知道什么时间发生了告警风暴。其实监控的是告警数量，将告警风暴检测转化为一个突变点检测，使用EVT去自适应准确检测告警风暴。下图中右上角的曲线表示每天告警产生的数量，可以自动检测到告警数量的突增情况。

在这里插入图片描述

第二部分，告警风暴摘要。准确检测到告警风暴发生后，需要做三个步骤：基于学习的告警降噪，将告警风暴中与此次故障无关的告警全部删除；差异化的告警聚类，总结告警里有多少告警簇；代表性告警选择，在每一个簇找到代表性的告警选择，减少工程师看的数量。最终的目的是通过告警风暴摘要，选取出与故障相关的告警集合，并且这些告警能够从多方面反映故障。

下图是告警风暴里面的一些告警，告警降噪会去掉无关的告警，告警聚类对它们进行分类，针对每一个簇选择有代表性的告警。最后，成百上千个告警只呈现出几个告警，极大加快了运维的排障效率。
在这里插入图片描述

下面详细介绍告警风暴摘要的三个步骤。

步骤一：基于机器学习的告警降噪。我们将它定义成异常检测的问题，这是比较巧妙的做法。因为故障不常发生，经常发生的告警和这次故障没有关系。经常发生的告警有点像我们在异常检测里定义的日常情况，而不经常发生的罕见告警有点像我们定义的异常情况。我们使用isolation forest方式检测到的罕见告警，更有可能和故障相关。这一过程中，我们对告警进行了很多属性提取和特征统计。

在这里插入图片描述

步骤二：经过告警降噪过滤后，剩下的告警去做告警聚类，这里我们使用了DBSCAN聚类方法。对聚类的度量，也就是相似性度量，我们考虑了文本相似性和拓扑相关性。文本相似性使用了Jaccard距离；拓扑相关性方面，定义了软件层面和硬件部署层面两种拓扑，使用它们相连的最短路径去刻画拓扑相关性。

步骤三：有了告警相关性，我们使用聚类方法得到告警的类，每一类均代表对故障的描述，选择一个聚类中心来作为代表性的告警。

在这里插入图片描述

我们在真实环境中166个告警风暴案例上做了测试，可以发现：从检测方面来看，极值理论的告警风暴检测比固定阈值方法要好；从摘要的方向来看，告警摘要算法能显著减少工程师需要查看的告警数量，并且推荐的告警与故障相关的准确率达到75%，极大缩小了查看的范围，有助于经验聚焦得到有意义的告警。

为什么选择isolation forest？为什么选择DBSCAN？通过对比一些常见的聚类方法、异常检测方法，可以发现我们选择的方法比现有方法都好。

BizSeer必示科技

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
AIOps前沿分享 | ICSE SEIP 2020：告警风暴摘要

ICSE SEIP 2020的论文“Understanding and Handing Alert Storm for Online Service Systems”，核心是对告警风暴做实时检测和摘要。也就是说，对海量告警做降噪和聚类，减少工程师需要查看的告警数量，以便快速定位问题。
复制链接

扫一扫