PATE: Proximity-Aware Time Series Anomaly Evaluation

系列文章目录

PATE:邻近感知时间序列异常评估KDD ’24



摘要

评估时间序列数据中的异常检测算法至关重要,因为不准确可能会导致在实时分析和数据驱动策略至关重要的各个领域中做出有缺陷的决策。 传统的性能指标假设独立同分布数据,无法捕获复杂的时间动态和时间序列异常的特定特征,例如早期和延迟检测。 我们引入了邻近感知时间序列异常评估(PATE),这是一种新颖的评估指标,它结合了预测和异常间隔之间的时间关系。 PATE 使用基于邻近度的加权来考虑异常间隔周围的缓冲区,从而能够对检测进行更详细、更明智的评估。 使用这些权重,PATE 计算精确率和召回率曲线下面积的加权版本。 我们对合成数据集和真实数据集的实验表明,PATE 在提供比其他评估指标更合理、更准确的评估方面具有优势。 我们还使用 PATE 评估方案在各种基准数据集上测试了几种最先进的异常检测器。 结果表明,像 Point-Adjusted F1 Score 这样的通用指标无法很好地表征检测性能,而 PATE 能够提供更公平的模型比较。 通过引入 PATE,我们重新定义了对模型功效的理解,引导未来的研究开发更有效、更准确的检测模型。 公共源代码:https://github.com/Raminghorbanii/PATE


一、引言

时间序列 (TS) 数据中的异常检测是识别偏离预期规范的异常模式的过程,在各个领域已变得越来越重要 [6, 7]。 数据驱动决策和实时分析的快速发展为开发更准确的异常检测方法提供了机会。 这种发展通常会导致模型竞相争夺“最先进”(SOTA)的地位。 获得这一地位不仅仅是学术声望的问题,更是一个问题。 它往往指导未来研究的重点,影响行业采用,并指导实际应用的开发。 然而,选择合适的评估指标对于避免对模型性能得出错误的结论至关重要。 依赖不能准确反映模型真实有效性的评估指标可能会导致在现实应用中做出有缺陷的决策。 这在医疗诊断或金融欺诈检测等关键领域尤其重要,在这些领域,依赖评估不当的模型可能会产生严重影响。

在这里插入图片描述
图 1:时间序列数据中异常检测的图示。 𝑎1−3 表示实际异常作为基本事实。 预测用 𝑝 表示。 两个事件的持续时间由方框的长度指示。 𝑝 和 𝑎 之间的重叠区域表明模型正确识别了异常。

标准评估指标(例如 Precision 和 Recall [2])对于基于点的异常检测非常有效,因为它们评估检测孤立 iid 事件的准确性。 在这种情况下,每个数据点都是独立评估的,从而可以直接计算这些指标。 然而,在 TS 数据中,事件和异常通常按时间间隔发生。 这种复杂性会导致以下几种情况: 1) 早期检测,即根据数据模式随时间的微妙变化,在潜在异常完全显现之前识别出它们。 图 1 显示了早期检测的示例,其中预测 𝑝11 比实际发生更早地检测到异常事件 𝑎1。 尽管 𝑝11 与 𝑎1 并不完全一致,但这种早期检测对于早期响应行动很有价值,并且应该在评估指标中得到适当的重视。 2) 延迟检测,当异常事件没有立即检测到而是在稍后时间(甚至在实际发生之后)才被识别时,就会发生延迟检测。 在图 1 中,预测事件 𝑝12 延迟检测到异常事件 𝑎1。 尽管 𝑝12 与 𝑎1 并不完全一致,但在评估过程中应该考虑到这种类型的延迟检测,因为它反映了模型最终识别异常的能力,即使在一些延迟之后也是如此。

另一种情况,3) 开始响应时间,是指检测到异常情况距事件开始的时间有多近。 及时检测很有价值,尤其是在需要立即采取行动的情况下。 在图 1 中,异常事件 𝑎2 由 𝑝21 和 𝑝22 检测到。 然而,𝑝21 与异常事件 𝑎2 的开始更加接近,表明比 𝑝22 的响应更快。 评估指标应该奖励那些在异常发生后立即发生的指标。 最后4)预测的覆盖水平,是指预测覆盖实际异常的范围。 预测的有效性可以通过它成功捕获多少异常来衡量。 在图 1 中,预测 𝑝31 和 𝑝32 都检测到异常事件 𝑎3,但 𝑝31 比 𝑝32 多覆盖了 𝑝3。 𝑝31 更广泛的覆盖范围使其对 𝑎3 的预测更有效。 因此,评估指标需要考虑异常持续时间内预测的覆盖范围。

人们已经开发了专门针对时间序列数据的顺序性质(称为顺序适应性)的各种指标。 例如,基于范围的精确度和召回率指标(以下称为基于 R 的[18])通过合并存在性(检测至少一个点的异常范围)、大小和位置(反映数量)等因素来扩展传统指标。 和正确检测到的异常范围的相对位置)和基数(惩罚单个异常的碎片预测)。 时间序列感知精确度和召回率(以下称为 TS-Aware [10])遵循类似的方法,但省略了基数和位置考虑。 该指标要求预测覆盖异常的最小百分比𝜃,才能被视为真正的检测。 他们还添加了一个缓冲区𝛿,以递减的方式对延迟检测给予一定的信任。 增强版本,称为 ETS-Aware [11],通过结合检测和重叠分数来进一步细化评估,以提高重叠检测评分的准确性。 此外,关联度量[8]通过关注预测和实际异常范围之间的距离引入了不同的视角。 它通过测量预测异常与实际异常之间各自范围之间的持续时间来评估预测异常与实际异常的接近程度。

另一种广泛使用的方法是点调整 F1 得分指标,我们将其表示为 PA-F1 [20]。 这种方法假设检测异常范围中的单个点足以让人类专家识别整个范围。 因此,它将相应异常范围内的所有观察结果视为正确检测到的异常。 然而,它因可能产生乐观的分数而受到批评。 例如,[12]表明,当使用该指标进行评估时,均匀分布的随机异常分数优于最先进的方法。 为了解决这个问题,[12]提出了一个修改版本,要求在进行任何调整之前检测异常范围的 𝐾% 的一部分。

虽然所有这些指标都代表了时间序列异常检测评估的进步,但它们没有充分考虑早期和延迟检测或起始响应时间的所有关键因素。 除了这些限制之外,上述指标还需要设置一个阈值,即异常分数超过该值的数据点被归类为异常的值。 选择此阈值会增加额外的复杂性,并导致评估的主观性和不一致。 接收者操作特征曲线下面积 (AUCROC) 和精确召回曲线下面积 (AUC-PR) 等指标通过在一系列阈值范围内评估模型的性能,消除了阈值化的需要。 然而,由于没有考虑数据点的顺序和它们之间的时间相关性,它们在时间序列上下文中存在不足。 针对这个问题,提出了地表下体积(VUS)指标、VUS-ROC 和 VUS-PR [16]。 这些指标承认需要通过在实际异常范围两侧的范围内将标签调整为 0 到 1 之间来适应对真实异常范围的密切预测。 尽管该方法是无阈值的,但它没有关注早期和延迟检测以及起始响应时间。 此外,通过更改原始标签,该指标会给出不切实际的分数,因为不可能达到最大检测分数 1。

在这里插入图片描述

表 1:异常检测评估指标的比较。 主要特点:顺序适应性(SA); 早期检测(ED); 延迟检测(DD); 起效反应时间(ORT); 覆盖水平 (CL) 和无阈值 (TF)

本文介绍了邻近感知时间序列异常评估指标 PATE (/peIt/)。 我们的新颖指标集成了异常事件周围的缓冲区,并利用特殊的基于邻近度的加权机制,可以对早期/延迟检测进行详细评估,并解决起始响应时间挑战。 PATE 通过整合阈值范围来避免阈值相关指标的主观性,提供公平且公正的评估,特别是在可能无法使用专家知识来根据应用设置确切的所需参数的研究环境中。 表 1 展示了现有指标与 PATE 之间的比较,强调了 PATE 在评估 TS 异常检测时的全面适应性重新考虑。

2 PROPOSED EVALUATION METRIC - PATE

时间序列表示为观测序列 X = { x t } t = 1 T X=\{x_t\}_{t=1}^T X={xt}t=1T,其中 𝑇 表示时间序列的长度,每个 x t x_t xt 是时间 𝑡 处的观测数据点。

实际的异常事件(在真实标签中标记为正)是时间序列中的一个子段,对于点 i k i_k ik n k n_k nk 表示为 a k \boldsymbol{a}_{k} ak = ( i k , n k ) (i_k,n_k) (ik,nk),其中 1 ≤ i k i_k ik n k n_k nk ≤ 𝑇。 时间序列中所有异常事件的集合表示为 A = { a k } k = 1 N A=\{\boldsymbol{a}_k\}_{k=1}^N A={ak}k=1N,其中 𝑁 是时间序列中存在的异常事件的数量。

在实践中,检测模型输出连续的异常分数,表示为 S = { s t } t = 1 T S=\{s_t\}_{t=1}^T S={st}t=1T,表示每个观测值 x t x_t xt 出现异常的可能性。 然后通过应用阈值 𝜃 将这些分数转换为二进制预测,其中等于或超过阈值的分数被归类为异常。 我们将预测事件定义为由这些二元预测识别为异常的子段,对于点 𝑚𝑙 和 𝑗𝑙 表示为 p l ( θ ) = ( m l , j l ) p_l(\theta)=(m_l,j_l) pl(θ)=(ml,jl),其中 1 ≤ m l ≤ j l m_{l}\leq j_{l} mljl≤ 𝑇。 所有预测事件的集合表示为 P = { p l ( θ ) } l = 1 M P=\left\{p_{l}(\theta)\right\}_{l=1}^{M} P={pl(θ)}l=1M,其中 𝑀 是模型识别的预测事件的数量。

在这里插入图片描述
图 2:PATE 方法中的分类和加权机制图示。 预测事件 (𝑝1 − 𝑝7) 由橙色框表示,而异常事件 (𝑎1 − 𝑎4) 由蓝色框表示。 TP 权重用蓝线表示,FP 权重用红线表示,FN 权重用紫色线表示。 请注意,与虚线段相比,实线段表示图中所示示例场景的激活权重。

异常检测器的有效性取决于这些 p l ( θ ) p_{l}(\theta) pl(θ) 事件与 a k \boldsymbol{a}_k ak 事件的对齐程度。 PATE 根据时间关系区分真实值和预测之间的几个匹配类别,并为每个类别中的每个点分配特定于邻近度的权重。 然后使用这些权重来计算精确率和召回率分数的加权版本。 PATE 的最终衡量标准是加权 AUC-PR,它源自这些加权精确率和召回率分数。 以下各节提供了有关这些计算的更多详细信息。

2.1 Categorizing the Events

图 2 说明了不同类别的异常和预测事件之间的关系。 在评估每个 p l ( θ ) p_{l}(\theta) pl(θ)时,我们考虑其与每个 a k a_k ak的重叠、接近度或距离(时间关系)。 这种方法可以清楚地区分不同的场景:完全和部分异常检测、早期或延迟检测以及部分或完全遗漏异常的情况。 具体来说,我们将异常和预测事件分类如下:

2.1.1 Prediction events categories:

• 真实检测:预测事件 p l ( θ ) p_{l}(\theta) pl(θ) 的子段与异常事件 a k a_k ak 重叠,表示已准确识别且未遗漏的异常。 例如图 2 中的段 𝑝1、𝑝5 和 𝑝6−2。

• 缓冲区后检测:在异常事件 a k a_k ak 之后立即落入缓冲区的预测事件 p l ( θ ) p_{l}(\theta) pl(θ) 的子段(参见图2 中的段𝑝2 和𝑝6−3)。 此类别突出了模型延迟检测的能力。 后缓冲区大小,用𝑑表示,可以由专家根据具体应用需求进行调整。 当 𝑑 对于特定应用程序未知时,我们可以考虑 𝑑 的一系列值,而不是固定值 𝐷 = {0, 1, . 。 。 ,𝑑}。 这种方法可以对不同场景下的模型性能进行全面评估,因为每个缓冲区大小可以提供关于模型性能的不同视角。 有关这些缓冲区大小如何影响总体 PATE 分数的详细信息将在以下部分中讨论。

• 缓冲前检测:预测事件 p l ( θ ) p_{l}(\theta) pl(θ) 的子段落入异常事件 a k a_k ak开始之前的区域。 此类别强调了模型早期检测、提前发出潜在异常信号的能力。 与后缓冲区域类似,前缓冲区域的大小(用 𝑒 表示)在集合 𝐸 = {0, 1, . 。 。 , 𝑒max} 采用相同的评估方法。 将此类别的点分配的条件是不与先前异常𝒂𝑘−1 的后缓冲区重叠,确保模型早期预警与先前事件的延迟检测不同。 换句话说,后缓冲区类别具有优先权,因此,如果 i k − e < n k − 1 + d i_k-e<n_{k-1}+d ike<nk1+d则前缓冲区区域从 n k − 1 + d + 1 n_{k-1}+d+1 nk1+d+1开始,而不是从 i k − e i_{k}-e ike开始。 此外,预缓冲检测取决于后续异常事件𝒂𝑘的成功检测。 在真实检测没有检测到后续事件 a k a_k ak的任何部分的情况下,此预缓冲检测被视为错误警报,而不是有意义的早期检测。 因此,这个早期预测 p l ( θ ) p_{l}(\theta) pl(θ) 被重新分类为假阳性(外部类别,将在下面讨论)。 附录 C 中给出了更多详细信息。在图 2 中,𝑝4 和 𝑝6−1 是预缓冲区检测类别的示例,而𝑝7 不属于该类别。

• 外部:预测事件 p l ( θ ) p_{l}(\theta) pl(θ)的子段位于异常事件 a k a_k ak范围及其缓冲区之外。 在这些实例中,模型错误地将正常行为标记为异常(误报),如图 2 中的段 𝑝3 和 𝑝7 所示。

2.1.2 Anomaly events categories:

• 丢失异常总数:当预测事件 p l ( θ ) p_{l}(\theta) pl(θ)的任何片段都未检测到整个异常事件 a k \boldsymbol{a}_{k} ak时,即所有检测都在 i k − e i_{k}-e ike之前或 n k + d . n_{k}+d. nk+d.之后。 此类别表示模型完全无法识别异常(假阴性)。 参见图 2 中的段 𝑎4。

• 部分遗漏异常:当预测事件 p l ( θ ) p_{l}(\theta) pl(θ)仅检测到部分异常事件 a k \boldsymbol{a}_{k} ak,但在 a k \boldsymbol{a}_{k} ak异常范围内仍有部分未检测到时,分配此类别。 此类别不仅强调模型检测部分异常的能力,而且还强调其无法识别整个异常事件。 例如,图 2 中的段 𝑎2,其中一部分被 𝑝5 检测到,但在 𝑝5 之前和之后我们有部分丢失的段。

2.2 Weighting Process

将每个单独的时间点分配给其类别后,我们为每个点定义权重,以确定它们对检测器的真阳性 (TP)、假阳性 (FP) 和假阴性 (FN) 指标的贡献。 值得注意的是,不存在异常且不进行预测的时间点,即真阴性 (TN),不会主动对性能指标做出贡献,因此隐式分配权重为零,反映了它们的非 贡献。 图 2 的下半部分直观地表示了所有不同类别的权重变化。

• 真实检测权重:真实检测类别中位于异常事件 [ i k , n k ] [i_k,n_k] [ik,nk] 范围内的每个点 𝑡 均被视为已正确识别。 因此,这些点被分配最大权重 1 作为真阳性:

在这里插入图片描述
• 后缓冲检测权重:后缓冲类别中的每个点 𝑡(在 ( n k , n k + d ] (n_{k},n_{k}+d] (nk,nk+d]范围内)均根据异常事件 a k a_{k} ak 进行评估。这些点虽然不是传统意义上的真阳性, 根据它们与 a k a_{k} ak 的接近程度接收权重,该权重捕获随着时间的推移,随着距异常事件距离的增加,异常的影响逐渐减弱。

在这里插入图片描述
这里,分子计算 𝑡 与异常事件内每个点的距离,分母根据缓冲区内的总潜在扩散对其进行归一化。 通过这种方法,我们可以考虑到整个异常的接近程度,而不仅仅是其端点。 因此,我们通过认识到实际异常范围内的任何点都可能影响缓冲区中的预测来解决延迟检测问题,而不仅仅是异常的最直接或最后的点。 这也意味着异常的长度会影响权重。 对于较小的异常,后缓冲区中的点更接近异常发生,因此将被分配更高的真阳性权重。 有关异常长度对权重影响的更多详细信息,请参见附录 B。

在后缓冲区中,随着与𝒂𝑘的距离增加,检测为误报的可能性也会增加。 因此,分配给该区域中误报的权重被计算为 TP 权重的补充,承认远离实际异常的检测的显着性降低。 图 2 直观地显示了缓冲后类别(𝑝2 和𝑝6(3))中 TP 和 FP 权重的变化。

在这里插入图片描述

• 外部权重:外部类别中的每个点𝑡 表示模型错误地将正常行为识别为异常的情况。 由于缺乏与任何真实异常的接近性,这些点被视为最大权重为 1 的 FP,反映了与准确检测的显着偏差。
在这里插入图片描述
• 预缓冲检测权重:评估预缓冲类别中 [ i k − e , i k ) [i_{k}-e,i_{k}) [ike,ik)范围内的每个点𝑡,以评估与前一个 a k a_{k} ak相关的潜在早期检测。 这些点虽然不是传统意义上的真正的积极因素,但会根据它们与即将出现的异常的接近程度进行评估:

在这里插入图片描述

在这里,分子代表 𝑡 与 a k \boldsymbol{a}_{k} ak中每个点的距离,捕获 𝑡 相对于异常发生的时间。 分母针对预缓冲区内的总潜在价差进行标准化。 该机制认识到异常事件内的任何点都可能对该区域产生影响。

与后缓冲区类似,随着与 i k \boldsymbol{i}_{k} ik的距离增加,点成为误报的可能性也会增加。 因此,分配给 FP 的权重被计算为 TP 权重的补充,反映了过早检测的相关性降低。 图 2 显示了 PreBuffer 类别的权重变化(𝑝4 和 𝑝6(1))。

在这里插入图片描述
• 遗漏异常总权重:当 a k a_{k} ak的整个范围未被检测到时,其间隔内的每个𝑡 收到的最大假阴性权重为1。此分配强调了模型在检测异常事件方面的完全失败。 图 2 显示了作为总错过事件的 𝑎4 中 FN 权重的变化。

在这里插入图片描述
• 部分错过的AnomalyWeights:当仅部分检测到 a k a_{k} ak 时,将根据与异常事件开始的接近程度来评估 a k a_{k} ak内未检测到的点𝑡。 点越接近异常发生点,FN 权重越高,强调检测中的发生响应时间。 对于 𝑡 ∈ 部分错过 a k a_{k} ak,我们有:

在这里插入图片描述
这里,𝑟是从异常事件发生开始的缓冲区的大小。 此缓冲区中未检测到的点将受到最大 FN 权重 1 的惩罚。缓冲区外未检测到的点将收到减少的 FN 权重,并根据到缓冲区的距离进行加权。 这种设计背后的基本原理是,通过预测对异常情况进行更全面的覆盖,证明对其精确计时精度进行更宽松的评估是合理的。 换句话说,当预测成功捕获 a k a_{k} ak 的较大部分时,其开始时间的精度变得不那么重要。 因此,𝑟 被定义为 a k a_{k} ak被其对应的 p l ( θ ) \boldsymbol{p}_{l}(\theta) pl(θ)覆盖的分数。 图 2 显示了部分缺失类别中 FNweight 的变化,其中 𝑎2 的一些片段被缺失。

2.3 PATE Final Score

PATE 最终指标旨在通过考虑预缓冲区 (𝑒) 和后缓冲区 (𝑑) 大小的全方位组合来综合评估异常检测。 对于 𝑒 和 𝑑 的每种组合,我们应用一系列阈值 (𝜃) 将连续异常分数 (𝑺) 转换为二元预测,捕获模型在不同敏感度级别的性能。 基于这些二进制预测,我们识别预测事件𝑷,然后对所有预测和异常事件进行分类。 基于这种分类,我们为每个观察值分配适当的权重。

我们针对 𝑒 和 𝑑 的每个特定组合计算考虑范围内所有阈值的加权精度和召回率。 使用这些计算,我们为每个组合构建精确召回曲线并计算曲线下面积 (AUCPR)。 请注意,权重 w T P ( t ) , w F P ( t ) , a n d w F N ( t ) w^{\mathrm{TP}}(t),w^{\mathrm{FP}}(t),\mathrm{and} w^{\mathrm{FN}}(t) wTP(t),wFP(t),andwFN(t)是根据每个时间点 𝑡 的分类分配的。 对于不属于任何特定类别的时间点,权重被视为 0。因此,Precision 和 Recall 公式中的求和实际上仅包括那些已分类的时间点。

在这里插入图片描述
最后,通过计算 𝑒 和 𝑑 所有组合的 AUC-PR 的平均值来确定总体 PATE 分数:
在这里插入图片描述
在这里,|𝐷| 和|𝐸| 表示 𝑑 和 𝑒 在各自集合内的不同值的数量。

3 EXPERIMENTS AND RESULTS

3.1 Synthetic Data Experiments

为了突出 PATE 的优点,我们首先使用二进制异常检测器将 PATE 与合成时间序列上的替代评估指标进行比较。 替代措施可以是阈值相关的或独立的。 与阈值无关的指标本质上是在一系列可能的阈值范围内进行评估的。 对于此示例,我们考虑阈值 𝜃 = {0, 1} 来区分正常预测和异常预测。 对于阈值相关指标,我们将最佳阈值定义为 𝜃 = 1,识别预测为“1”(异常)的点进行评估。

在这里插入图片描述
图 3:使用合成数据的示例说明。 该图显示了二进制异常检测器中不同异常分数 𝑆 的位置。

表 2:图 3 所示综合数据示例的评估指标比较。“F1”指 F1 分数。 “Standard-F1”具体表示根据标准精确率和召回率计算得出的传统 F1 分数。

在这里插入图片描述
图 3 显示了异常 𝑎1 及其前缓冲区和后缓冲区。 下面显示了十种不同的检测场景,𝑆1,。 。 。 ,𝑆10。 表 2 中的结果表明,PATE 根据时间邻近性、持续时间、覆盖级别和响应时间有效地区分场景。 例如,尽管 𝑆1 在时间上接近异常事件,但它无法检测到异常事件的任何部分。 在时间序列的背景下,过去的数据对于预测至关重要,在异常开始后无法检测到任何部分表明预测可能是真正的误报,而不是有意义的早期检测。 𝑆1 的低分反映了适当惩罚幸运猜测或不相关检测的指标。 另一方面,𝑆2 获得更高的分数,因为它捕获了异常本身的一部分,然后非重叠部分可以被识别为相关的早期检测,应该受到重视。 请注意,𝑆1 的 PATE 分数 0.03 并不完全为零,因为它考虑了一系列阈值,包括零。 在阈值为 0 时,每个点都被标记为潜在异常,从而增加了真阳性和假阳性。 这种广泛的考虑可防止此特定示例的 PATE 分数为零。

同时,𝑆1 和𝑆2 的评估方式应与延迟检测𝑆4 和𝑆5 不同。 虽然𝑆4的覆盖水平与𝑆2相同,但由于响应时间的原因,它的得分较低。 同样,𝑆5 的评估与𝑆1 完全不同,因为它发生在异常事件之后。 这种较晚的检测可能表明模型正在对异常做出响应,尽管有明显的延迟。 因此,将 𝑆5 评估为高于 𝑆1 是合理的,因为它可以反映对实际异常的一些响应,即使它很晚并且未能检测到异常的任何部分。 其他指标虽然在某些情况下有效,但无法区分异常检测的更详细的细节。 例如,这些指标仅反映 𝑆4 和 𝑆5 的 𝑆1 和 𝑆2 的结果,而不考虑早期和延迟的上下文。 此外,𝑆3 作为准确检测的示例,预计所有评估指标都会获得最高分 1,而𝑆6 预计会获得比𝑆3 更低的分数。 然而,VUS-ROC/PR 指标无法正确评估这些场景。 场景𝑆7、𝑆8、𝑆9 和𝑆10 进一步说明了覆盖水平和响应时间在检测中的重要性。 在每一对中,𝑆7 和 𝑆9 从一开始就检测到异常; 因此他们的得分应该高于 𝑆8 和 𝑆10。 虽然其他指标倾向于对这些对进行类似的评分,但 PATE 识别 𝑆7 和 𝑆9 中的早期检测并给它们更高的分数。 此外,在像 𝑆9 和 𝑆10 这样的场景中,异常被更广泛地覆盖,PATE 对响应时间不准确的惩罚较少。 这可以从覆盖范围更大的场景中早期和晚期检测之间的较小分数差异中看出。

3.2 Real-World Data Experiments

为了验证 PATE 在实际应用中的实用性和有效性,我们从公开且广泛使用的数据集 UCR-KDD21 [19] 和 MIT-BIH 心律失常 (MBA) ECG [15] 中提取了一些示例。 目标是评估 PATE 以及其他评估指标区分各种检测模型的能力。 为了确保公平比较,我们将 PATE 与阈值无关的评估指标进行比较,保证指标性能的公正比较。

我们分析了1)完美模型生成的异常分数,完美识别异常作为基准; 2)建立了多变量正态分布(MVN)[5]、自动编码器(AE)[13]和局部离群因子(LOF)[4]等模型; 3) 基线随机评分,从 [0, 1] 分布中随机均匀分配分数。 这种选择涵盖了从理论上理想到实际上随机的范围,提供了指标潜在评估范围的全面视图。 我们的公共代码存储库中提供了模型的详细实现。

图4展示了两个真实世界的例子:(A)来自UCR-KDD21的天气温度数据和(B)心电数据。每个示例的顶行显示了时间序列数据,其中实际异常以红色突出显示。接下来的几行说明了完美模型以及模型1和模型2(由MVN、LOF或AE表示)的输出,展示了它们各自的检测分数。最后一行显示基线比较的随机分数。表3定量比较了各种指标。Pate始终将完美模型评为最高,随机评分最低,显示其识别最佳检测的能力,并有效地惩罚糟糕的性能。相比之下,VUS-ROC/PR和AUC-ROC指标与基线的区分能力似乎较差。

在这里插入图片描述

图 4:真实世界数据集和不同模型的异常分数。 与模型预测进行比较的异常部分及其相应区域(由专家标记)以红色突出显示

表 3:异常检测模型的定量评估。 图4示例中不同异常检测模型在检测异常区域时的评估分数。
在这里插入图片描述
表 4:在各种基准数据集上使用不同评估指标的 SOTA 异常检测模型的比较。

在这里插入图片描述

图 5:SWaT 和 SMD 数据集的 SOTA 模型异常分数片段。 红色突出显示的区域表示真正的异常时期(由专家标记)。

此外,PATE 准确地考虑了时间序列背景和延迟检测效果,与 VUS-ROC 和 AUC-ROC 指标相比,提供了更现实和保守的评估,这似乎高估了模型 1 和 2 的性能。这种高估在 天气温度数据,其中模型 2 尽管检测效果不佳,但 VUS-ROC 和 AUC-ROC 的得分不准确。 此外,AUC-PR 的评估也不敏感。 例如,在天气温度数据中,模型 1 延迟但成功的检测被错误地评估为非常低的分数,类似于模型 2 的检测。同样,在心电图数据中,PATE 的评估反映了模型 2 不一致的异常检测模式(AE )与模型 1 (MVN) 相比。 然而,AUC-ROC/PR和VUS-ROC并没有有效地考虑这种差异。 总体而言,PATE 对这两个示例的评估强调了其在实际应用中的有效性。

3.3 影响分析:SOTA 模型

我们重新评估了最近的几种 SOTA 异常检测方法,不仅评估它们的真实性能,还检查它们在使用不同指标(包括 PATE)进行评估时在各种基准数据集上排名的稳定性。 我们的比较分析包括 DCDetector [22]、AnomalyTrans [21] 和 USAD [3] 等模型,所有这些模型在最近的研究中都因其高性能而得到认可,与 Transformer 和 LSTM 模型一起,作为更简单的基于重建的异常检测器 基线。 这些模型在之前的工作中使用的 SMD [17]、MSL [9]、SWaT [14] 和 PSM [1] 基准数据集上进行了测试。 实现细节可在我们的公共代码存储库中找到。

在有关 SOTA 模型的文献中,PA-F1 是最常用且被广泛接受的指标。 此外,在某些情况下,还采用标准 F1 分数和 AUCROC 的点调整变体 (PA-AUC-ROC)。 为了进行全面比较,我们将这些指标纳入了比较分析中。 表 4 中显示的结果突出显示了 PATE 分数与从 PA-F1、标准 F1 分数和 PA-AUC-ROC 等其他指标获得的分数之间存在显着差异。 值得注意的是,在 PA-F1 和 PA-AUC-ROC 下表现出色的模型(例如 AnomalyTrans 和 DC detector)在使用 PATE 评估时表现出明显较低的分数。 例如,对于SMD数据集,AnomalyTrans的PA-F1得分为0.91,表现出高性能,但其PATE得分仅为0.06,表明性能大幅下降。 为了直观地说明检测质量的差异,图 5 显示了 SWaT 和 SMD 的部分异常分数。 这些图显示 AnomalyTrans 和 DCDetector 模型很难实现一致的检测。 特别是,对于 SWaT,这些模型的峰值检测几乎与专家标记的异常间隔一致,并且 PA-F1 和 PA-AUC-ROC 报告的高值并不反映这种检测模式。 这表明这些指标可能高估了模型的有效性。

接下来,表 4 显示标准 F1 分数、AUC-ROC 和 VUS-ROC 并未出现此类高估。 然而,它们对 2.1 节中讨论的检测的更精细方面缺乏敏感性。 例如,在 SWaT 数据集上,标准 F1 分数无法区分性能良好的 LSTM 和 Transformer 以及性能较差的 AnomalyTrans 和 DCDetector,另请参见图 5 (a)。 此外,AUC-ROC 并不能反映 USAD、LSTM 或 Transformer 之间的微小差异。 该指标的分数表明所有模型都具有相同的性能,但这与其输出的实际情况不符。 此外,虽然 VUS-ROC 在模型之间的区分度比 AUC-ROC 稍好一些,但其有限的评分范围(例如 AnomalyTrans 为 0.54,Transformer 为 0.57)使得很难清楚地区分表现出色的模型和表现不佳的模型。 同时,PATE 提供更加一致和透明的评估。 可以看出,PATE 根据 USAD(0.73)、Transformer(0.72)和 LSTM(0.71)更好的检测模式给出了相对较高的分数。 与 LSTM 相比,PATE 甚至稍微更喜欢 USAD,尽管差异很小。

我们还探讨了所有四个基准数据集的所有指标的模型平均排名。 图 6 展示了这些排名,突出显示了使用不同指标时模型排名的显着差异。 基于 PA-F1 指标的平均排名使 DCDetector 名列前茅,平均排名为 1.62,其次是 AnomalyTrans (1.88)、USAD (3.00)、LSTM (3.88) 和 Transformer (4.62)。 然而,当使用 PATE 进行评估时,出现了重大转变:Transformer 和 LSTM 成为表现最好的模型,排名分别为 1.38 和 2.12,而 AnomalyTrans 和 DCDetector 则跌至垫底,各为 4.50。 这种差异强调了所选评估指标的关键影响以及选择适当指标(例如 PATE)的重要性。
在这里插入图片描述

4 消融分析:缓冲区大小

PATE 适应不同缓冲区大小的适应性是其关键优势之一。 这种灵活性允许采用专家驱动和特定于上下文的模型评估方法,确保适当考虑每个数据集的独特特征。 图 7 显示了使用 PATE 的所有四个基准数据集上 DCDetector、AnomalyTrans、USAD、LSTM 和 Transformer 的平均性能。 结果表明,在不同的缓冲区大小中,PATE 始终将 Transformer 和 LSTM 等模型排名最高。 无论缓冲区大小如何,模型排名的一致性凸显了 PATE 作为评估指标的稳健性,并展示了 PATE 对于不同应用的可靠性,确保对异常检测模型进行一致且可靠的评估。

在这里插入图片描述
图 7:对于不同的前缓冲区和后缓冲区大小 (e = d),所有数据集上的所有模型的平均 PATE 性能。

5 DISCUSSION AND CONCLUSION

我们提出了 PATE,一种评估时间序列数据中异常检测模型的新方法。 PATE 通过对异常和预测事件进行分类并分配基于邻近度的权重,同时考虑异常事件周围的不同缓冲区,解决了现有评估指标的局限性。 PATE 计算精确率-召回率曲线下的面积,其中精确率和召回率是根据真阳性、假阳性和假阴性性能的加权版本计算的。 我们对合成数据和真实世界数据的实验表明,PATE 根据模型的实际性能有效地区分模型,同时考虑早期和延迟检测、起始响应时间、异常事件的覆盖水平以及检测的一致性。 使用 PATE 重新评估 SOTA 异常检测方法揭示了与其他指标相比在性能评估方面的显着差异。 例如,点调整指标通常会高估模型的性能。 然而,在实践中,ROC-AUC 和 VUS-ROC 等指标为 SOTA 模型提供了更合理的估计,尽管它们可能会忽略细微的检测错误,有时模型之间缺乏区分性。 该分析不仅质疑当前 SOTA 模型的真实性能,而且表明其排名发生了变化,挑战了对这些模型优越性的普遍理解。 PATE 能够提供更加匹配、上下文敏感和透明的评估,凸显了其作为更合适的指标的潜力,可以为评估异常检测的进展制定新标准。 此外,PATE 在不影响模型评估的一致性和公平性的情况下对各种缓冲区大小的适应性进一步凸显了其在不同应用中的稳健性和适用性。 为了解决专家预先确定阈值或模型固有地输出二进制标签的特定场景,我们开发了 PATE-F1 作为原始 PATE 框架的重要扩展。 附录 D 详细介绍了 PATE-F1 的方法和实验见解。PATE-F1 根据时间邻近性、持续时间、覆盖水平和响应时间有效区分不同场景,使其与在捕获这些方面面临限制的其他指标区分开来 在评价中。 此外,我们的研究结果表明,原始的 PATE 框架通过策略阈值应用,自然地扩展到有效评估二进制输出。 然而,在这种情况下使用 PATE-F1 提供了一种更直接和简化的方法。 这种调整确保 PATE 的方法在更广泛的异常检测方法和环境中仍然是一种通用且适用的措施。 总之,PATE 代表了时间序列异常检测方法评估的重大进步,有潜力指导未来的研究,影响行业采用,并促进医疗保健和金融等关键领域实际应用的开发。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值