【告警疲劳】海量安全告警数据，如何甄别真实告警？

Yang_Yutou

已于 2024-05-22 10:29:19 修改

阅读量1.7k

点赞数 4

文章标签：安全

于 2024-04-29 11:24:50 首次发布

本文链接：https://blog.csdn.net/yamgyutou/article/details/138279137

版权

本文探讨了政企单位在处理海量安全告警时面临的挑战，提出通过特征工程、异常检测、告警级别划分、相似度计算和告警聚类等方法减少告警量，提高效率。同时引用了多篇相关文献，展示了从告警优化到深度学习模型的应用策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、难点

政企单位越来越重视自身安全能力的建设，为了提升自身「感知攻击威胁」的能力，会根据「需求」部署各种各样的安全设备资产在内部。从而导致需要分析处置的告警日志剧增，如果按照中小规模的政企单位来算的话，单日安全设备所产生的告警日志量就有可能达到十几万，遇到特殊时期告警日志量甚至高达百万，而其中真正关键的却可能只有几十条甚至更少。

在考虑 “如何从海量告警中筛选出真实有效的攻击？”这个问题前，我一直在思考如何更好的将「告警日志数据」转换为「情报数据」进行输出，因为很多字段对于模型而言看似并没有实际的意义，但却是人工甄别时的一个参考项。

本文从安全研究人员处理海量告警的角度出发，研究了告警优化的方式，目的是减少告警的数量，并且能够让安全研究人员更快的找到有效的告警，减低人工成本，提升发现高级威胁的能力。

毛主席在《反对本本主义》中曾说：没有调查，没有发言权。通过查阅大量相关告警信息处理的技术文档和学术论文，其实理论上的方法不少，但是用于工业实现又有一定困难，只能筛选出一些具有可行性的方法，利用特征工程提取有效字段信息，尽可能采用一些组合的方式让告警数据尽量收敛。

二、技术汇总

1、参考：安全运营 | 如何从海量告警中筛选出真实有效的攻击？_edr告警日志-CSDN博客

2、绿盟告警相关参考：腾讯云开发者社区-腾讯云 (tencent.com)

链接	摘要总结
智能运维-告警太多看不过来？需要告警优化啦-腾讯云开发者社区-腾讯云 (tencent.com)	（1）告警级别划分：初中高级（2）告警相似度计算
【攻击意图评估：序】误报太多？谈海量告警筛选-腾讯云开发者社区-腾讯云 (tencent.com)	（1）异常检测筛选法：关注罕见类型、罕见端口等在统计分布中孤立/离群的告警
告警载荷嵌入的前景和难点-腾讯云开发者社区-腾讯云 (tencent.com)	（1）告警载荷摘要
基于多维度关联的告警评估方法-腾讯云开发者社区-腾讯云 (tencent.com)	（1）基于图的告警关联分析：资产关联图，Payload关联图
AISecOps：量化评估告警筛选方案的性能-腾讯云开发者社区-腾讯云 (tencent.com)	（1）告警推荐：根据重要程度（2）告警分诊
告警全量分诊思路分析-腾讯云开发者社区-腾讯云 (tencent.com)	（1）“Alert throttling”的方式进行告警聚合
【安全告警数据分析之道：一】数据透视篇-腾讯云开发者社区-腾讯云 (tencent.com) 【安全告警数据分析之道：二】数据过滤篇-腾讯云开发者社区-腾讯云 (tencent.com) 【安全告警分析之道：三】异常处理篇-腾讯云开发者社区-腾讯云 (tencent.com) 【安全告警分析之道：四】扫描识别（上）-腾讯云开发者社区-腾讯云 (tencent.com)	（1）提取字段：按照数量大到数量小，重要程度低到重要程度高的原则对告警进行过滤、分类

三、相关文献检索与研究

文献标粗为可参考。

引用文献	摘要总结
马琳茹. 网络安全告警信息处理技术研究[D].国防科学技术大学,2009.	该文章为博士论文，年份比较久，但具体介绍了很多告警处理方式，包括上下文报警关联等，可以多做参考，有一个整体的了解。 1、正则表达式告警筛选，规则匹配 2、多特征聚合：攻击类型特征、空间特征和时间特征约束条件 3、第三章后太难了看不懂了 ... ,,ԾㅂԾ,,
陈瑞,冷迪,李英.数据中心告警事件全面自愈方法及系统研究[J].电子元器件与信息技术,2021,5(09):241-242.DOI:10.19772/j.cnki.2096-4455.2021.9.110.	两页，内容描述类似专利，且无有效参考方法
任姝锦. 电力网络安全告警信息关联性方法的研究与实现[D].内蒙古大学,2022.DOI:10.27224/d.cnki.gnmdu.2022.001153.	该文章为硕士论文，方法简单，相对容易理解。 1、创新点：DP-Kmeans去除误报，Max-IFP关联算法挖掘内在联系 2、聚类方法：属性相似度、专家经验、神经网络、哈希函数 3、关联分析：关联分析/频繁项集挖掘：Apriori算法_最大频繁项目集挖掘算法apriori算法案例报告-CSDN博客
Tjhai G C, Furnell S M, Papadaki M, et al. A preliminary two-stage alarm correlation and filtering system using SOM neural network and Kmeans algorithm[J]. Computers＆Security, 2010, 29(6): 712-723	无监督神经网络算法SOM（自组织映射）+kmeans两级告警滤波系统，判断真假告警。整个过程包括特征提取、报警聚合、聚类分析和分类四个阶段。第一阶段的分类是为了适当地关联与特定活动相关的警报。由单个事件触发的所有警报，无论签名类型如何，都将被映射并分组到一个集群中。此外，第二阶段的主要目标是随后将第一次分类中产生的所有集群标记为真警报组和假警报组。
郭帆. 一种基于分类和相似度的报警聚合方法[J]. 计算机应用, 2007, 27(10).	有监督，将告警按攻击类别分为四类，属性值分为类别、数值、时间、字符串属性，设定不同的属性相似度计算方法和阈值，数值和字符串比较结果为0和1。聚合的最终结果将产生若干超报警，超报警代表了一类原始报警，因此每当有新报警来临时，系统将新报警与所有的超报警比较，将其加入相似度最大的超报警，如果与所有超报警均不相似，则自行成为一条新的超报警。
石镇宇.融合多源告警信息的安全态势感知方法[J].移动通信,2022,46(12):108-113.	通过CNN+LSTM，利用告警信息的关联性对多源告警信息（防火墙日志、网络流量、安全告警、威胁情报）进行融合关联，采用最大概率攻击路径的方法更清晰展现网络攻击行为，提升网络安全态势感知精准度。
白冰,段笑晨.电力网络安全告警信息挖掘研究与实现[J].自动化与仪器仪表,2023(05):87-91.DOI:10.14016/j.cnki.1001-9227.2023.05.087.	该论文和上面那个（任姝锦）硕士论文大差不差。创新点：DP-Kmeans进行聚类，Max-IFP关联算法挖掘内在联系
王维靖,陈俊洁,杨林,等.基于多元数据融合的网络侧告警排序方法[J/OL].软件学报:1-17[2024-05-06].https://doi.org/10.13328/j.cnki.jos.007118.	绿盟与天津大学合作项目： 1、首先，设计了一个基于源 IP 地址与目的 IP 地址的多策略上下文编码器，生成告警频数矩阵，用于捕获告警的上下文信息； 2、其次，一个基于注意力机制双向 GRU 模型与ChineseBERT 模型的文本编码器, 从告警报文等文本数据中学习网络侧告警的语义信息； 3、最后, 构建排序模型得到告警排序值, 并按其降序将攻击性强的高风险告警排在前面。输入数据: (1) 上下文数据, 即基于源 IP 地址(s-ip)与目的 IP 地址(d-ip)的上下文告警; (2) 文本数据, 包括告警名称(name)、告警载荷(payload)、Web 访问请求体(q-body)、Web 访问响应体(r-body); (3) 离散数据, 即目的端口(d-port)等在实际生产实践中, 安全人员会按照固定的时间间隔调查收到的告警. 为满足生产需要, 本方法会对每个排序时间间隔收到的告警流进行排序
崔豪驿,鲍娌娜,苗德雨,等. 基于XGBoost 的网络安全设备告警误报检测模型[J]. 电力大数据,2021,24(7):31-39.	1、从攻击时间、IP 地址、端口等原始数据特征中构造、提取、选择告警误报检测相关特；对于数据预处理和特征工程介绍的较为详细。 2、对138万条告警数据进行了是否误报的0和1标注，比例为1：1 3、其次，利用XGBoost对告警误报准确分类识别
A.Valdes, K. Skinner. Probabilistic alert correlation, In Proceedings of the 4th International Symposium on Recent Advances in Intrusion Detection	在概率框架上计算告警属性相似度，引入期望相似度作为属性的权值计算总的相似度，通过调整相似度期望和最小相似度。。。
Bin Zhu,Ali A.Ghorbani. Alert correlation for extracting attack strategies. International Journal of Network Security,October 2005,3(2): 259-270.	多层感知机和支持向量机实现告警关联，根据告警关联强度和时间间隔建立关联矩阵
Oliver . Dain and R,K.Cunningham, Building scenarios from a heterogeneous alert stream. ACM Workshop on Data mining for Security Applications, June2001, pp.1-13.	接收到新告警是，与最后一个告警进行关联比较，计算隶属场景的概率

四、总结

序号	可行方法	介绍【算法】
1	异常检测筛选	罕见报警、类型、端口等在统计分布中的利群检测。【孤立森林】
2	告警聚合	1、融合多种特征实现告警收敛：攻击类型特征的约束：相似的告警类型；空间特征约束：相似的攻击源IP，源端口（随机），目的IP，目的端口；时间特征约束：告警之间的时间差阈值。 2、相似度计算：【Jaccard，欧氏距离，余弦距离】
3	告警聚类	设置告警阈值，判断是否误报。【k-means, DP-kmeans, DBscan】
4	告警关联	结合关联规则判断。【Max-IFP最大频繁项挖掘】
5	告警分诊	将所有告警分类划分为值得关注、攻击性低、可忽略等等级，需要标签，【XgBoost等树模型】
6	告警推荐	对固定时间间隔的所有报警进行排序，通常只关注Top10。【基于源IP和目的IP的编码器+基于注意力机制和ChineseBert 的文本语义提取+排序模型】
7	告警载荷摘要	1、摘要生成。【LLM大语言模型】 2、告警词云。
8	安全问答	知识库+大语言模型。