Learning Multi-Pattern Normalities in the Frequency Domain for Efficient Time Series Anomaly Detecti

最新推荐文章于 2024-08-15 23:29:53 发布

萧宛亦

最新推荐文章于 2024-08-15 23:29:53 发布

阅读量31

点赞数

文章标签：人工智能深度学习

原文链接：https://arxiv.org/abs/2311.16191

版权

系列文章目录

学习频域中的多模式正态性以进行高效的时间序列异常检测 ICLR2024

文章目录

系列文章目录
摘要
一、引言
二、 RELATED WORK
- A. Anomaly Detection
- B. Multi-task Learning
三、 PRELIMINARY
四、 PROPOSED METHOD
五、 EXPERIMENT
六、 CONCLUSION

摘要

异常检测显着增强了云系统的稳健性。虽然基于神经网络的方法最近表现出了强大的优势，但它们在云环境中遇到了实际挑战：为每个服务维护唯一模型的不切实际与通过统一模型处理各种正常模式的能力有限之间的矛盾，以及作为实时处理大流量和短期异常检测灵敏度的问题。因此，我们提出了 MACE，一种适应多正态模式的频域有效异常检测方法，用于时间序列异常检测。它具有三个新颖的特点：（i）模式提取机制擅长用统一的模型处理各种正常模式，使模型能够通过检查数据样本与其服务正常模式之间的相关性来识别异常，而不是仅仅通过检查数据样本与其服务正常模式之间的相关性来识别异常。关注数据样本本身； (ii)二元卷积机制，放大时域中的短期异常，阻碍频域中异常的重建，从而扩大了异常与正常之间的重建误差差距，有利于异常检测； (iii) 利用频域的稀疏性和并行性来提高模型效率。我们从理论上和实验上证明，与使用完整的频谱相比，使用策略性选择的傅立叶基子集不仅可以减少计算开销，而且还可以有利地区分异常。此外，大量的实验证明了 MACE 在使用统一模型处理各种正常模式方面的有效性，并以高效率实现了最先进的性能。

一、引言

异常检测是一个广泛研究的问题，对于增强云系统可靠性和控制劳动力支出至关重要 [1], [2]。特别是基于重建的方法，已经证明了该领域最先进的性能[3]-[5]。尽管取得了这些进步，但仍然存在一些重大挑战，如下所述：

• C1。容纳多种常态的能力有限：在实际场景中，云中心会同时承载数百万个服务，并且每个服务都表现出独特的常态。为了说明这一点，我们将服务器机器数据集中每个服务的正常数据投影到二维空间上，并在图 1（a）中可视化它们的分布，其中数据点随机分散。为每项服务维护一个定制的模型是不切实际的，而且成本过高[9]。然而，大多数最先进的方法都会为每个云服务训练定制模型 [3]、[4]、[7]。此外，据报道，许多基于重建的方法只能有效地捕获每个训练模型的训练集中的一些主要正常模式[10]。我们通过实验比较了一些最先进方法在为十个服务训练统一模型和为十个服务定制十个模型时的性能，进一步验证了这一点，如图1（b）所示。统一模型的性能大大低于定制模型的性能。

• C2。实时处理大流量效率低下：在大型云中心，服务流量可能会上升到每秒数十万个请求。在这些高需求场景中，许多基于深度学习的方法面临着实时有效处理峰值流量的挑战。此外，将循环网络纳入多个异常检测神经网络（例如 VRNN [11]、omniAnomaly [3] 和 MSCRED [7]）中会产生一个显着的复杂性。这种包含阻碍了算子并行化，因为循环网络无法在不同的循环步骤之间有效地并行化。

• C3。对单点异常不敏感：许多基于重建的方法使用的编码器解码器神经网络对单点异常不敏感，并且经常忽略它们[8]、[12]。

应对这些挑战对于提高基于深度学习的异常检测方法在实际云环境中的有效性和适用性至关重要。因此，我们设计了创新机制来解决这些问题，如下所述：
在这里插入图片描述
图1.（a）每个服务的正常数据被压缩为二维向量，该向量是随机分散的。 (b) 该图显示了一些 SOTA 方法的 F1 分数：DCDetector [6]、AnomalyTransformer [4]、DVGCRN [5]、OmniAnomaly [3]、MSCRED [7]、TranAD [8]。 © 数据样本被投影到模式提取机制中的正常模式子空间。当数据样本更接近正常模式子空间时，更容易从其投影重建它，并且重建误差更小。因此，与正常模式 2 相比，数据样本更有可能被推断为正常模式 1 的正常状态。

• S1。为了增强模型适应不同正常模式（C1）的能力，我们提出了一种模式提取机制。处理不同的正常模式最具挑战性的问题是，一种正常模式的异常可能是另一种正常模式的正常现象。因此，我们根据数据样本与其服务正常模式之间的相关性来检测异常，而不是根据数据样本本身。模式提取机制为每个服务识别频域中的正常模式子空间。随后，它根据样本在其服务正常模式子空间上的投影来定制每个数据样本的表示。这样，当数据样本更接近其服务正态性子空间时，更容易从重构误差较小的表示中进行重构，并且更有可能被推断为正态性，如图1（c）所示。

• S2。为了提高模型效率和并行性（C2），我们引入了基于频域的方法。频域中的异常检测可以利用稀疏性来减少计算开销，并通过消除时间依赖性来增强细粒度并行性。为了利用频域稀疏性，我们提出了一种在模式提取过程中为每个服务选择傅立叶基子集的策略。我们从理论上证明，与使用完整频谱相比，仅使用傅里叶基的这个子集不仅可以减少计算开销，而且还可以提高异常检测性能。为了在频域中进行有效的异常检测，我们引入了二元卷积机制来取代自动编码器中的标准卷积。这种机制阻碍了异常的重建，同时又使正常的重建变得容易。

• S3。为了增强对短期异常（C3）的敏感性，我们将二元卷积机制引入到时域，从而放大了异常，促进它们的检测，同时保持与原始时间序列的正态性相似性。如图3（b）所示，二元卷积机制扩展了异常，同时保持了与原始时间序列的正态性的相似性。

因此，这项工作对异常检测领域做出了以下新颖且独特的贡献：

• 我们提出了一种新颖的模式提取机制，通过促进模型从数据样本与其服务正常模式之间的相关性（而不仅仅是数据样本）中检测异常来处理各种正常模式。
• 我们提出了一种二元卷积机制。在时域中，它放大了异常。在频域中，它阻碍了异常的重建，同时使常态的重建变得容易。
• 我们利用频域的稀疏性和并行性来提高模型效率。理论和实验证明，与使用完整谱相比，仅使用傅里叶基的子集不仅可以减少计算开销，而且可以获得更好的异常检测性能。

此外，我们对四个真实数据集进行了广泛的实验，证明 MACE 可以通过统一的模型有效捕获多种正常模式，与基线中最强的方法相比，F1 分数平均提高 8.7%，同时速度提高 4 倍。

二、 RELATED WORK

异常检测是一项关键任务，重点是识别时间序列数据中的异常值，并且一直是广泛研究的主题。现有的工作可大致分为三大类：经典机器学习[13]-[15]和统计方法[16]-[19]、基于信号处理的方法[20]-[22]和深度学习- 基于方法[23]-[28]。在下文中，我们对每个类别进行了简要概述，并对多任务学习进行了回顾，因为多种正常模式学习与这项工作的目标高度相关。

A. Anomaly Detection

经典方法。正如早期作品 [29]-[31] 所强调的那样，传统的统计和机器学习方法无需大量训练数据即可运行，并且不受各种正常模式挑战的影响。此外，它们通常会产生很少的计算开销。尽管有这些优点，但这些方法取决于某些假设，并且在实际应用中表现出有限的鲁棒性[32]。

基于信号处理的方法。基于信号处理的方法利用了细粒度并行性和频域固有的稀疏性的优点。尽管有这些优点，但它们在同时捕获全局和细微特征同时保持可管理的计算开销方面遇到了困难。例如，傅里叶变换[33]擅长捕获全局信息，但难以处理微妙的局部特征。相比之下，上下文感知离散傅里叶变换（DFT）和上下文感知逆DFT（IDFT）根据给定的正态模式选择傅里叶基，并与二元卷积机制集成，增强了提取细微特征的能力。理论证据表明，这种方法扩大了异常模式和正常模式之间的重建误差差距。 JumpStarter [32] 是该类别中最新的最先进方法，但其推理时间开销很大，并且难以实时处理繁重的流量负载。

基于深度学习的方法。基于深度学习的方法被证明对于可变时间序列特别有效[8]。这些方法可以大致分为基于预测的方法[34]、[35]、基于重建的方法[4]、[5]和基于分类器的方法[36]-[38]。基于预测的方法，例如 LSTM-NDT [34] 和 DAGMM [35]，包含不可并行且低效的循环网络。同样，基于重建的方法，如 Donut [39] 和 OmniAnomaly [3] 也依赖于循环神经网络。最近的进展，以 USAD [40] 和 GDN [41] 为代表，用基于注意力的架构取代了循环神经网络，以加快训练过程。然而，由于去除循环网络和使用小输入窗口，这些方法在有效捕获长期依赖性方面面临挑战[8]。与这些方法相反，频域中的异常检测消除了时间依赖性，而不牺牲全局信息。因此，不需要循环神经网络，但该模型仍然可以有效地捕获长期特征。最近的工作利用了 Transformer 的力量，以 AnomalyTransformer [4] 和 TranAD [8] 为代表，实现了细粒度的并行性。然而，这些方法在使用统一模型处理不同的正常模式时遇到了挑战。

B. Multi-task Learning

多任务学习 (MTL) 是一种机器学习范例，其中训练模型以同时处理多个相互关联的任务。与针对单个任务训练单独模型的传统方法不同，MTL 有助于共享特定模型参数。这种共享机制允许模型在其设计处理的各种任务中收集通用表示。在 MTL 研究领域中，出现了两个主要类别：硬共享方法和软共享方法。硬共享方法涉及任务之间共享公共低级隐藏层。相比之下，软共享方法采用更细致的策略。他们通过将正则化技术纳入神经网络参数[42]或建立跨网络的连接[43]、[44]来促进多个模型之间常识知识的交流。然而，软共享和硬共享方法都需要维护特定于任务的神经网络层。尽管 MTL 取得了进步，但这种维护在计算上仍然昂贵，特别是在处理现实应用程序中的多种不同服务和任务时。寻找更有效的方法来跨任务共享知识而不影响性能是一个持续的挑战。

三、 PRELIMINARY

正常的多元时间序列用 $X_{N }\in\mathbb{R}^{T\times m}$ 表示，其中 T 表示滑动窗口长度，m 表示特征维度的数量。类似地，反常多元时间序列表示为 $X_{A}\in\mathbb{R}^{T\times m}$ 。正态模式是确定概率 $p(X_N[t]|{X_N}[1:t])$ 的分布，其中 $X_{N}[t]$ 表示 XN 的第 t 个元素， $X_{N}[1:t]$ 表示 $X_{N}$ 从第一个时隙到第 (t − 1) 个时隙。基于重构的方法分别压缩 $X_{N}$ 和 $X_{A}$ 并重构它们。重建的正常时间序列用 $\tilde{X}_{N}$ 表示，而重建的异常时间序列用 $\tilde{X}_{A}$ 表示。基于重建的方法的目标如式（1）所示。 1，这扩大了常态和异常的重建误差之间的差距。随后，它通过一些策略确定阈值，例如 POT [18]。当重构误差超过阈值时，输入数据被推断为异常。
在这里插入图片描述
此外，表 I 中列出了本文中使用的其他符号。

四、 PROPOSED METHOD

A. Overview

MACE 的概述如图 2 所示。MACE 大致分为四个阶段。在第一阶段，它会放大异常并使它们更容易被发现。第二阶段，提取每个服务的正态模式子空间，将时间序列变换到频域，得到其频率表示。在第三阶段，它重建频域中的表示。在最后阶段，它将重建的频谱变换回时域。更具体而言，详细内容如下：

在这里插入图片描述

• 第一阶段：放大异常：MACE 最初在时域中采用二元卷积来放大异常。二元卷积具有峰卷积和谷卷积，分别用于强调向上偏差和向下偏差。我们以逐元素的方式对峰卷积和谷卷积的结果进行平均。

•阶段2.时域→频率表示：我们提出了一种新的模式提取机制，以利用频域固有的稀疏性，从而增强模型跨各种正常模式的泛化能力。模式提取机制由上下文感知离散傅里叶变换（DFT）、频率表征模块和上下文感知离散傅里叶逆变换（IDFT）组成。上下文感知 DFT 通过为每个服务选择傅立叶基的子集来识别频域中的正态模式子空间，并将服务的数据样本投影到频域中的子空间。之后，频率表征模块学习样本的频率表示。通过这种方式，我们学习了数据样本和正常频率子空间之间的相关性。接下来，我们从这种相关性而不是数据样本本身中检测异常。

• 第3阶段：重建：MACE分别用峰卷积和谷卷积代替自动编码器中的普通卷积来重建频率表示，这扩大了正常与异常之间的重建误差差异。

• 第4 阶段：重构频谱→时域：MACE 在模式提取中使用上下文感知IDFT 将峰卷积和谷卷积重构的频谱变换回时域。最后选择重构误差最大的时间序列作为最终的重构时间序列。

在训练过程中，我们使用随机梯度下降来最小化第4阶段获得的重建误差，这需要确定一个超参数——学习率。

可能有人担心为什么我们在第 1 阶段和第 2 阶段对峰谷卷积的结果使用不同的操作。值得注意的是，在第 1 阶段，我们平均的是操纵数据，而在第 4 阶段，我们选择的最大值是重建误差。在第一阶段，我们使用平均操作。这样，放大的向下和向上偏差就被融合到后面的网络中。在第4阶段，由于峰卷积和谷卷积分别放大了向上偏差和向下偏差的重建误差，因此对于每个时隙，我们比较它们的重建误差并选择最大的重建误差。这样，我们既可以检测向上偏差，也可以检测向下偏差。

B. Dualistic Convolution 二元卷积

二元卷积由峰卷积和谷卷积组成，分别针对向上偏差和向下偏差。它在时域和频域表现出不同的效果。据报道，在时域中，短期异常很容易被编码器-解码器模型忽略[8]。因此，我们提出了二元卷积机制来扩展时域中的异常，这使得异常更加明显并且更容易检测到。在频域上，它阻碍了异常的重建，同时保持正常样本的重建容易，以利于模型识别异常。

二元卷积机制如式2所示，其中γ是一个超参数，使卷积更加关注偏差，σ是一个缩放超参数， $\mathrm{Conv}_{1\times L}(x,s)$ 表示对x应用标准卷积，步幅为s 和核长度L。通过设置不同的γ得到峰卷积和谷卷积。峰值卷积是γ大于1的二元卷积、原始时间序列重构序列上下文感知DFT、上下文感知IDFT，而谷卷积是γ小于-1的二元卷积。 γ的绝对值越大，卷积结果的偏差越占主导地位，如图3(a)所示。
在这里插入图片描述
图 3 (a) 该图显示了指定不同 γ 时，不同时隙对卷积窗口中峰值卷积结果的贡献。随着 γ 的增加，偏差的贡献显着增加。 (b)-© 与标准卷积相比，二元卷积的效用。

在这里插入图片描述
二元卷积在时域和频域中产生不同的结果。为了直观地说明这一点，卷积结果如图 3 所示。在时域中，标准卷积可以减轻偏差，而二元卷积则可以放大偏差。在频域中，标准卷积将频谱压缩到频谱分布主体周围的低维空间，而二元卷积将其压缩到频谱分布“长尾”周围的空间。正如后来所证实的，异常数据通常在频谱中表现出长尾分布，而正常数据很少表现出这种尾部。考虑到从靠近分布主体的潜在向量进行重建比从靠近尾部的潜在向量进行重建更容易，二元卷积阻碍了异常的重建，同时保持正常数据的过程简单。

在时域中，将二元卷积的步长s设置为1。这样，二元卷积就充当了每个核长度滑动窗口的加权求和算子，强调了其结果的偏差。因此，一旦一个异常被包含在一个卷积窗口中，该窗口的卷积结果就会受到该异常的支配。因此，短期异常将通过核长度进行扩展，如图3（b）所示，这使得短期异常更容易检测。

据报道，在频域中，大多数异常现象表现为具有高能量成分的强信号[32]，这使得它们的频谱具有更高的可变性。这可以通过表二中的统计数据来证明，其中异常的幅度方差大于正常模式的幅度方差。因此，我们将频域中的二元卷积的步长设置为卷积核的大小。这样，二元卷积实际上选择每个内核长度段中的最小（谷卷积）或最大（峰值卷积）幅度来构成潜在向量，如图4（a）所示。直观上，频域中的二元卷积阻碍了异常的重建，并使正态性的重建变得容易，因为当频谱中的分量变化很大时，二元卷积倾向于选择高能量分量来组成其潜在向量，它可能明显偏离其他组件并且很难重建。相反，当频谱中的分量彼此更接近时，通过二元卷积获得的潜在向量不会显着偏离原始频谱，并且可以更好地表示它。此外，我们对正常和异常情况下从潜在向量重建频谱所涉及的挑战进行了理论上的比较。重建难度的大小与潜在向量和原始光谱之间的差距直接相关。在定理 1 中，我们检查了正常和异常情况下该差距的上限。我们的分析表明，与异常情况相比，正常情况下对差距的限制更为严格。

定义1. 每个卷积窗口的卷积结果与原始频谱之间的差距定义为 $\sum_{j=1}^{n}\mathbb{E}(|\mathrm{DualisticConv}(\mathcal{A})-\mathcal{A}_{j}|)$ ，其中A为卷积窗口内频谱的幅度， $A_j$ 为 A 和 n 中的第 j 个元素是内核长度。

定理 1. 当幅度服从高斯联合分布 N(μ,Σ) 时，潜在向量与原始频谱之间的距离上限为 $2^{\frac{\gamma-1}{\gamma}}n \sqrt[\gamma]{\sum_{i=1}^{n}(\gamma-1)!!\nu_{i}^{\gamma}|\alpha_{i}|+|\alpha_{i}\mu_{i}^{\gamma}|}-\sum_{j=1}^{n}\mu_{j}$ ，其中 αi 是核中的第 i 个元素除以 σ，μi 是 µ 的第 i 个元素，νi 是 Σ 和 n 的第 i 行第 i 列元素！表示 [n(n − 2)(n − 4) · · · 1]。

证明骨架。我们首先将间隙形成转换为 $\left|\sum_{j=1}^n\mathbb{E}(\mathrm{DualisticConv}(\mathcal{A})-\mathcal{A}_j)\right|$ 。这是因为 DualisticConv(A) − Aj ≥ 0，只要我们选择足够大的 γ 就可以得到 ∀j。以峰值卷积为例， $\begin{aligned}\lim_{\gamma\to\inf}\text{DualisticConv}(\mathcal{A}) = \max(\mathcal{A}_1,\mathcal{A}_2,\ldots,\mathcal{A}_n)\end{aligned}$ 。因此，当我们取一个较大的γ时，我们可以近似地确认A−Aj ≥ 0, ∀j。随后，我们进一步变换间隙，如式4-式5所示。由于当 x ≥ 0 时，函数 $\sqrt[\gamma]{x}$ 是凹函数，因此可以通过 Jensen 不等式 [45] 对其进行进一步缩放，如方程 6 所示。设 $\mathcal{A}_i=\bar{\mathcal{A}}_i+\mu_i$ ，其中 $\bar{\mathcal{A}}$ ∼ N(0,Σ)，则得到方程 7。该方程进一步通过幂均不等式[46]缩放，我们得到方程8。借助 Gamma 函数 [47] 的性质，可以计算出 $\mathbb{E}(|\bar{\mathcal{A}}_i^\gamma|)=(\gamma-1)!!\nu_i^\gamma$ 。由此，我们得到结论，如式9所示。
在这里插入图片描述值得注意的是，上界主要由 νi, i ∈ [1, n] 决定，而 µ 的影响可以忽略不计。这是因为，无论 µ 的值如何，表达式 $2^{\frac{\gamma-1}{\gamma}}n\sqrt[\gamma]{\sum_{i=1}^{n}|\alpha_{i}|(\gamma-1)!!\nu_{i}^{\gamma}+|\alpha_{i}\mu_{i}^{\gamma}|}-\sum_{j=1}^{n}\mu_{j}$ 总是更大比 $2^{\frac{\gamma-1}\gamma}n\sqrt[\gamma]{\sum_{i=1}^n|\alpha_i|(\gamma-1)!!\nu_i^\gamma}$ ，仅与 νi 相关，i ∈ [1, n]。这可以使用幂均不等式来证明。因此，间隙的上限主要受幅度标准差的影响，并与其呈正相关。因此，正态分布的潜在向量和原始幅度之间的差距受到更严格的约束，这意味着它们更容易重建。

C. Pattern Extraction

使用统一模型处理多种正常模式时最具挑战性的问题是，一种正常模式的异常可能对另一种正常模式也是正常的。为了克服这个问题，我们提出了一种模式提取机制，通过数据样本与其服务正常模式之间的相关性来检测异常，而不是数据样本本身，这使我们能够处理各种正常模式并通过利用频域固有的稀疏性。我们的模式提取机制包括三个关键组件：上下文感知离散傅里叶变换（DFT）模块、频率表征模块和上下文感知离散傅里叶逆变换（IDFT）模块。在预处理阶段，我们在频域中分析每个服务，并通过为每个正态模式建立一组紧凑的主导傅立叶基来识别包含大多数正态性的正态模式子空间作为服务正态模式子空间。在训练和测试阶段，我们采用上下文感知 DFT 模块，通过使用相关正态模式内的基数的线性组合对其进行近似，将时间序列数据投影到其服务正态模式子空间，对于另一个正态模式可以是正态的。为了克服这个问题，我们提出了一种模式提取机制，通过数据样本与其服务正常模式之间的相关性来检测异常，而不是数据样本本身，这使我们能够处理各种正常模式并通过利用频域固有的稀疏性。我们的模式提取机制包括三个关键组件：上下文感知离散傅里叶变换（DFT）模块、频率表征模块和上下文感知离散傅里叶逆变换（IDFT）模块。在预处理阶段，我们在频域中分析每个服务，并通过为每个正态模式建立一组紧凑的主导傅立叶基来识别包含大多数正态性的正态模式子空间作为服务正态模式子空间。在训练和测试阶段，我们采用上下文感知 DFT 模块，通过使用相关正态模式子空间内的基数的线性组合对其进行近似，将时间序列数据投影到其服务正态模式子空间。该过程有效地压缩了光谱量并最大限度地减少了计算需求。随后，频率表征模块用于根据其投影为时间序列数据创建定制的频率表示。通过基于二元卷积的自动编码器进行重建后，频谱使用上下文感知 IDFT 转换回时间序列数据。此外，我们从理论上证明，与使用完整谱相比，仅利用每个正常模式的主导碱基在区分异常与正常模式方面具有优越的性能。 V-D 节中的实验证据进一步支持了这一点。

在这里插入图片描述

图 4. (a) 应用于频域的二元卷积实际上选取了每个压缩步骤中的显着偏差。 (b) 该图显示了频率表征模块中频率表示的三个通道。第一个通道是傅里叶变换的结果，第二个通道是对应的sin傅里叶基，第三个通道是对应的cos傅里叶基。

上下文感知 DFT 和 IDFT。假设每个服务或服务器都表现出其独特的正常模式。因此，在预处理阶段，我们在频域中处理训练数据集，并将每个傅里叶基的出现次数计算为所有滑动窗口中的前 k 个最强信号。随后，我们选择出现率最高的前 k 个基作为其服务正态模式子空间的傅立叶基。在训练和测试阶段，上下文感知 DFT 通过 DFT 过程专门使用来自相应正态模式子空间的基数来转换时间序列数据。同样，上下文感知 IDFT 通过 IDFT 仅使用相应的基数来处理频谱。此外，我们对异常和正常模式之间的重建误差进行了理论比较，证明上下文感知的 DFT 可以显着扩大异常和正常模式之间重建误差的差距。
在这里插入图片描述

定义 2（频谱）。给定正常模式 $\mathcal{A}_N(\omega_0) > \cdots > \mathcal{A}_N(\omega_n),$ 的 DFT 谱，其中 $\mathcal{A}_N(\omega_i)$ 是信号的幅度，ωi 是其相应的频率，我们计算它们的归一化值如下： $q_{N}(\omega_{i})=\frac{\mathcal{A}_{N}(\omega_{i})}{\sum_{i=1}^{n}\mathcal{A}_{N}(\omega_{i})}$ 。异常频谱用 $\mathcal{A}_{A}(\omega_{0}),\ldots,\mathcal{A}_{A}(\omega_{n})$ 表示，其中 ωi 正是正常模式频谱中的 ωi。类似地，异常频谱被归一化并用 qA(ωi) 表示。通过上下文感知 DFT 获得的正态性和异常性的归一化谱分别用 $\bar{q}_N(\omega_i)\mathrm{~and~}\bar{q}_A(\omega_i)$ 表示。

定义 3（重建误差）。上下文感知DFT的重构误差被定义为上下文感知DFT得到的谱与原始谱之间的KL散度，即 $\mathrm{KL}(\bar{q}|q)$ 。

假设 1. 异常现象通过在正态性谱中添加一个平移变量来体现，其期望值大于 0，即 $\mathcal{A}_{A}(\omega_{i})=\mathcal{A}_{N}(\omega_{i})+\Delta\mathcal{A}_{i}$ ，其中 ∀i,ΔAi 是独立同分布的，并且服从未知分布，期望 ΔA，ΔA > 0。假设平移变量的期望大于 0 是合理的，因为据报道，异常信号比正态信号更强 [32]，这意味着更高的幅度期望异常。此外，我们统计收集了三个现实世界数据集的异常和正常的期望并验证了这一点，如表三所示。

定理2. 异常与正态之间的重构误差差距为 $\log\frac{\sum_{i=1}^{k}q_{N}(\omega_{i})}{\sum_{i=1}^{k}q_{A}(\omega_{i})}$ 。

证明。以正态性为例，我们推导了其重构误差的表达式。异常的表达式可以以类似的方式导出。我们首先表示 $\bar{q}_{N}$ ，如式（1）所示。 10. 随后，在式（10）中获得其重构误差。 11. 因此，异常模式和正常模式之间的重建误差差异由下式给出： $\mathrm{KL}(\bar{q}_{A}|q_{A})-\mathrm{KL}(\bar{q}_{N}|q_{N})=\log\frac{\sum_{i=1}^{k}q_{N}(\bar{\omega}_{i})}{\sum_{i=1}^{k}q_{A}(\omega_{i})}$ 。
在这里插入图片描述
直观上，间隙大于0，因为分子 $\sum_{i=1}^kq_N(\omega_i)$ 代表前k个最强信号，而分母 $\sum_{i=1}^kq_A(\omega_i)$ 不能保证具有类似的特性。我们对推论 1 中正常模式实现较小重构误差的条件进行了进一步分析。

推论1.当 $\sum_{i=1}^kq_N(\omega_i) > \frac{k}{n}$ 时，正态性的重建误差小于异常性的重建误差。

证明。根据假设1，qA(ωi)可以转化为 $\frac{q_{N}(\omega_{i})S+\Delta\mathcal{A}_{i}}{S+\sum_{i=1.}^{n}\Delta\mathcal{A}_{i}}$ ，其中 $\sum_{i=1}^n\mathcal{A}_N(\omega_i)$ 。因此，根据大数定律，异常与正态之间的重建误差差距可以转化为 $\log\frac{S+n\Delta A}{S+k\Delta A(\sum_{j=1}^{k}q_{N}(\omega_{j}))^{-1}}$ [48]。当 $\sum_{i=1}^{k}q_{N}(\omega_{i}) > \frac{k}{n}$ 时，我们可以得到 $\begin{aligned}S+n\Delta A>S+k\Delta A(\sum_{i=1}^{k}q_{N}(\omega_{j}))^{-1}\end{aligned}$ 。结果，重建误差的差距大于0。

值得注意的是，当使用平凡DFT和完整谱时，考虑到qA和qN是归一化值，k被设置为n并且异常和正态的重建误差间隙变为零。相反，通过检查推论 1 中的条件，很明显必须存在小于 n 的 k 值，从而产生大于 0 的重建误差间隙。因此，与使用全谱相比，仅使用它们的子集扩大了正常与异常之间的重建误差差距。这证实，与标准 DFT 相比，使用具有减少基数的上下文感知 DFT 时，更容易区分异常。

频率特性。频率表征模块将上下文感知DFT的结果与显式标记的三角基相连接，如图4(b)所示，其中 $\mathcal{F}_{i,j}$ 表示第i个特征维度的第j个基的傅立叶结果， $\omega_{i,j}$ 表示频率第 i 个特征维度的第 j 个基数。然后，我们使用三通道卷积来操作级联张量并获得频率表示。

五、 EXPERIMENT

我们对四个现实世界的异常检测数据集进行了广泛的实验，并得到以下结论：
• 当通过统一模型检测具有各种正常模式的多种服务的异常时，与最先进的方法相比，MACE 取得了更好的性能。
•与最先进的方法相比，MACE实现了与最先进的方法相当的性能，因为最先进的方法针对每个服务分别进行培训，并且MACE对所有服务使用统一的模型。
•MACE在看不见的数据集上表现出良好的可转移性。
•与最先进的方法相比，MACE消耗的时间和内存开销明显更少。
•Mace中的每个模块都对其性能做出了贡献。

A. Experiment Setup

本文使用的数据集包含多个子集，它们代表不同服务、服务器和检测传感器的数据。假设不同的子集具有不同的正常模式。我们将数据集中的每十个子集划分为一组。对于每个组，我们训练一个统一的模型来检测其中的异常情况。

数据集。我们使用了一系列数据集，包括广泛认可的服务器机器数据集（SMD）、来自全球顶级互联网公司的两个云服务监控日志（J-D1和J-D2）、成熟的异常检测基准、土壤湿度 Active Passive (SMAP) 和我们从全球十大云提供商之一收集的数据集 MC。如图5所示，SMD的正态图形最为多样，而J-D2的正态图形最为相似。此外，SMAP 具有最多的点异常，而其他数据集中的异常是持久的。

·服务器机器数据集(SMD)[3]：SMD的时间跨度为5周，源自一家大型互联网公司，整合了28台不同机器的数据。每台机器的日志数据(SMD的子集)平均分为训练集和测试集。SMD的异常率为4.16%。
·Jumpstarter提供的数据集(J-d1和J-D2)[32]：J-d1和J-D2是从一家全球顶级互联网公司收集的两个数据集。每个数据集包括来自30个服务的19个指标的日志，每个服务的日志数据在J-D1和J-D2中形成一个子集。J-D_1和J-D_2的异常率分别为5.25%和20.26%。
·土壤水分主动被动(SMAP)[34]：SMAP包括真实的航天器遥测数据和土壤湿度主动被动卫星的异常，异常率为13.13%。
·MC：MC由25个站点15天的监测数据组成，异常率为3.6%，包含大量点状异常。
Hyperparameter MACE的重要超参数如表IV所示，其中m表示子集中的基数， $\gamma_f$ 表示频域中二元卷积的γ， $\gamma_t$ 表示时间域中的一， $\sigma_{f}$ 表示频域中二元卷积的比例因子， $\sigma_{t}$ 表示时间域中的二元卷积。

基线。我们对 MACE 与几种最先进的方法进行了全面的比较，包括 DC detector [6]、AnomalyTransformer [4]、DVGCRN [5]、JumpStarter [32]、OmniAnomaly [3] 和 MSCRED [7]。为了评估其多样化的模式泛化能力，我们引入了两种额外的方法：TranAD，一种基于元学习的方法[8]，和ProS，一种基于迁移学习的方法[49]。此外，为了评估其计算效率，我们将 MACE 与经典异常检测方法 VAE [50] 进行了比较。由于空间限制，一些图表示使用其名称的前两个字母作为简写的方法。

在这里插入图片描述

• DC detector (DC) [6]：DC detector 是一种最新的尖端异常检测方法。它采用独特的双重注意力不对称设计来建立排列环境，并利用纯粹的对比损失来指导学习过程。这使得模型能够学习具有卓越辨别能力的排列不变表示。
• AnomalyTransformer (An) [4]：Anomaly Transformer 是最前沿的方法之一，它利用 Transformer 的强大功能，通过创新的异常注意机制来模拟点表示和成对关联。
• DVGCRN (DV) [5]：DVGCRN 是另一种尖端的异常检测方法，能够有效地对多元时间序列中的细粒度空间和时间相关性进行建模。它实现了潜在变量的精确后验近似，有助于多元时间序列数据的稳健表示。
• JumpStarter (Ju) [32]：JumpStarter 作为一种尖端的异常检测方法脱颖而出，配备了基于形状的聚类和抗异常值采样算法。这种组合确保了快速初始化和高 F1 分数性能。
OmniAnomaly (Om) [3]：OmniAnomaly 是一种广泛认可的异常检测方法，采用随机变量连接和平面归一化流来稳健地捕获正常多元时间序列数据的表示。
• MSCRED (MS) [7]：MSCRED 是一种广受好评的方法，因其能够检测各种尺度的异常并通过利用多尺度特征矩阵查明根本原因而闻名。
• TranAD (Tr) [8]：TranAD 是一种基于元学习的异常检测方法，代表了最新的前沿方法之一。它擅长学习异常检测模型的稳健初始化，展示了跨不同正常模式的出色泛化能力。
• ProS (Pr) [49]：ProS 引入了零样本方法，能够在目标域中进行推断，而无需重新训练。这是通过引入潜在域向量来实现的，作为域的潜在表示。
• VAE (VA) [50]：VAE 是一种广泛认可的经典异常检测方法，是众多最先进方法的基础框架。它引入了较低的计算和内存开销，这有助于其流行。

在这里插入图片描述
图 5. (a) 我们首先使用核密度估计来估计每个子集的分布。随后，我们计算训练组中每对子集之间的 KL 散度。图中展示了不同数据集的KL散度的分布。 (b) 该图显示了每个数据集中的点异常、上下文异常和正常模式比率。 © 所有方法为每十个服务训练一个统一的模型。该图显示了他们在不同服务中的 F1 分数。

指标。正如许多著名的异常检测论文 [5]、[6]、[8]、[32] 所做的那样，我们使用三个最广泛使用的指标来评估 MACE 和基线方法的性能：精度、召回率和 F1 分数。这些指标的定义在方程式中给出。 12 - 等式。 14，其中TP、FP和FN分别表示真阳性、假阳性和假阴性。
在这里插入图片描述

B. Prediction Accuracy

在本小节中，我们进行了大量的实验，以验证在使用统一模型区分异常与不同正常模式时，与基线相比，MACE 始终能够获得最佳 F1 分数。此外，与为每个子集定制独特模型的基线相比，MACE 展示了统一模型的竞争性能。此外，由于采用记忆引导模式提取方法，MACE 在以前未见过的正常模式上表现出了值得称赞的性能。

对多种正常模式的适应性。我们假设四个数据集中的各个子集包含不同的正常模式，表示不同服务器（SMD）、服务（J-D1 和 J-D2）的日志以及不同检测器通道（SMAP）的数据。在训练阶段，数据集中的每 10 个子集被分组在一起，并用于训练 MACE 和基线的统一模型。在测试阶段，应用训练好的模型独立检测每个相应测试子集中的异常。表 V 中列出了不同子集的平均指标，其中最佳结果以粗体突出显示，次佳结果用下划线表示。由于 JumpStarter 是一种基于信号的方法，因此多个正常模式训练不适用于它，因此，JumpStarter 被排除在本次分析之外。如表 V 所示，尽管偶尔会出现偏差，但 MACE 在使用统一模型检测多个正常模式时取得了最佳性能。此外，与四个数据集的所有基线相比，MACE 始终获得最佳 F1 分数。此外，改进是巨大的：与最佳基线性能相比，MACE 将 F1 分数平均提高了 8.7%。如图 5（a）所示，SMD 中的子集彼此之间表现出显着差异，其中 MACE 显示出明显的优势。直观上，由于 J-D2 中的正态模式彼此非常相似，因此大多数方法在此数据集上表现良好，并且 MACE 的优势并不像前一个数据集上的优势那么明显。此外，MACE 在 SMAP 上获得了很高的 F1 分数。考虑到SMAP中的大多数异常都是点异常，该结果验证了时域二元卷积的有效性，扩展了对短期异常的检测能力，使其更容易识别。

此外，为了验证统一模型可以在每个服务上正常工作，我们在图 5（c）中的服务器机器数据集上绘制了使用统一模型检测异常时不同服务的 F1 分数。如图 5© 所示，MACE 的性能以相当好的平均值为中心，而其他方法的性能在不同的服务中变化很大。这验证了 MACE 可以通过统一的模型很好地捕捉不同的正常模式。

与定制独特模型相比，性能具有竞争力。在这个实验中，MACE 对每十种不同的正常模式采用统一的模型，而基线则为每个子集定制一个独特的模型。如表 VI 和表 VII 所示，MACE 与最先进的方法实现了可比的性能。值得注意的是，MACE 使用单个模型同时捕获十种不同的模式，这通常是阻碍模型性能的因素 [10]，而基线则为每个正常模式定制一个独特的模型。比较表 V 和表 VI 时，多种正常模式的负面影响更加明显：当正常模式多种多样时（例如，在 SMD 中），表 VI 中的基线（为每个正常模式定制独特的模型）表现出很大的优势与表五中他们的表现进行比较，他们在表五中学习了多种正常模式的统一模型。相反，当正常模式相似时（例如，在 J-D2 中），表 V 和 VI 之间的基线性能差距较小。从这个比较中可以得出结论，当对多种模式使用统一模型时，正常模式的多样性会阻碍模型性能。因此，考虑到 SMD 的正常模式在四个数据集中是最多样化的，MACE 在 SMD 上表现出稍低的 F1 分数是可以容忍的。
在这里插入图片描述
MACE 在未见过的正常模式上的表现。如前所述，假设不同的子集代表不同的正常模式，并且数据集中的每十个子集被分为一组。 MACE 和所有基线都在一组上进行训练并在前面提到的另一组上进行测试，假设不同的子集代表不同的正常模式，并且数据集中的每十个子集被分为一组。 MACE 和所有基线都在一组上进行训练并在另一组上进行测试。结果列于表VIII中，其中最好的表现以粗体显示，次佳的表现以下划线显示。由于 JumpStarter 是一种基于信号的方法，因此一组训练而另一组测试不适用于该方法，因此未包含在表中。如表 VIII 所示，MACE 在四个数据集上始终获得最高的 F1 分数。当正常模式多样化时（例如在 SMD 中），MACE 的性能低于正常模式相似时（例如在 J-D2 中）。当不同正常模式之间的距离很小时，MACE 可以获得与在同一组上训练和测试 MACE 时相似的 F1 分数（即 J-D2 和 SMAP 上的表现）。

在这里插入图片描述

图 6. 由于空间限制，我们使用方法名称中的前两个字母作为简写。 γt和γf分别表示时域和频域的二元卷积的幂。 σt和σf分别表示时域和频域的二元卷积中的缩放因子。 (a) MACE 和基线的时间和内存开销。 (b) γt 和 γf 网格搜索的 MACE 的 F1 分数。 © γt 和 σt 网格搜索的 MACE 的 F1 分数。 (d) γf 和 σf 网格搜索的 MACE 的 F1 分数。 (e) 时域二元卷积核大小和 γt 网格搜索的 MACE 的 F1 分数。 (f) 子集中碱基数量网格搜索的 MACE 的 F1 分数和 γf 。

C. Efficiency Analysis

我们在配备由 32 个 Intel® Xeon® CPU E5-2620 @ 2.10GHz CPU 和 2 个 K80 GPU 组成的配置的服务器上评估了时间和内存开销。对于基于神经网络的方法，我们使用分析工具来评估其内存开销。对于基于信号的方法 JumpStarter，我们记录其在推理过程中的最大内存消耗。时间开销是根据每种方法在 SMD 数据集的子集上的训练时间来计算的。图 6（a）所示的结果表明，MACE 的时间开销与一些非常简单的方法（例如 VAE 和基于 VAE 的 ProS）具有竞争力，而 MACE 的 F1 分数在所有四个数据集上都显着超过了它们。在内存开销方面，MACE的值高于两层VAE和基于两层VAE的ProS。然而，MACE 的内存开销远低于其他深度神经网络。这些发现强调了 MACE 在时间和内存使用方面的效率，使其在基于深度神经网络的方法中处于有利地位，并在异常检测方面展示了卓越的性能，其在不同数据集上的较高 F1 分数就证明了这一点。

D. Ablation Study

我们进行了实验，通过单独删除 MACE 中各个模块来评估其有效性。当上下文感知离散傅里叶变换 (DFT) 和逆 DFT (IDFT) 模块被删除时，它们被传统的 DFT 和 IDFT 取代。在对其他模块进行消融实验时，我们将完成的 MACE 与删除它们的模块进行比较。结果显示在表IX中，其中“二元卷积（F）”和“二元卷积（T）”分别对应于频域和时域的二元卷积。如表 IX 所示，完整的 MACE 模型比其变体表现出相当大的优越性。值得注意的是，当上下文感知的 DFT 和 IDFT 被替换为普通的 DFT 和 IDFT 时，MACE 的性能急剧下降。普通 DFT 和 IDFT 的计算和内存开销会增加，因为它们引入了更多的傅里叶基，但性能却下降了。这一观察结果与我们之前的理论分析一致。此外，该实验强调了模式提取机制促进的多样化正常模式适应性的有效性。该模块显着增强了 SMD 上的性能，其特征是不同的正常模式，同时在 J-D2 上显示出边际改进，其中正常模式是相似的。同样，频率表征模块对 SMD 做出了重大贡献，但鉴于其多模式提取性质，在 J-D2 上的用途有限。总之，逐个模块的评估重申了 MACE 中各个组件所发挥的关键作用及其对不同数据集异常检测性能的影响。

E. Hyperparameter Study

我们采用网格搜索来研究关键超参数对 MACE 性能的影响。图6(b)图6(f)展示了不同成对超参数组合对应的F1分数。时域和频域中的 γ、时域和频域中的 σ、核大小以及上下文感知 DFT 和 IDFT 中的傅里叶基数设置为 {1, 3, 5, 7, 分别为{11、12、13}、{3、5、7、10、12}、{3、5、7、11、13}和{5、10、15、20、25、30}。

γt和γf的影响：当γt和γf设置为1时，二元卷积退化为标准卷积，本质上抵消了它的贡献。因此，当γt和γf设置为1时，MACE的性能并不令人满意。一般来说，MACE的性能随着γt和γf的增加而提高，如图6（c）和图6（d）所示。然而，需要注意的是，γ 不能无限增长，因为过大的 γ 值会导致梯度爆炸。因此，将 γ 设置在上述搜索空间内是一种安全的方法。

时域中二元卷积核大小的影响：直观上，随着核大小的增加，MACE 的性能首先提高然后下降，如图 6（e）所示。这是因为当内核大小从小值开始增加时，它会使异常更加突出并且更容易检测。然而，当内核尺寸变得过大时，时域中的二元卷积会扭曲原始时间序列并对模型性能产生不利影响。上下文感知 DFT 和 IDFT 中傅里叶基数的影响：随着基数的增加，MACE 的性能通常遵循先增加后减少的模式。正如第IV-C节中的理论分析，当碱基数从小值开始增加时，正常模式和异常的重建都得到改善，但正态性重建的增强更明显。然而，当碱基数量变得相对较大时，正态重建的改善变得微乎其微，而对异常重建的影响则变得显着。因此，随着碱基数量的增加，性能先上升后下降。

六、 CONCLUSION

在这项工作中，我们解决了用一个统一而有效的模型从不同的正常模式中检测异常的挑战，并通过提出MACE来提高短期异常敏感性。MACE表现出三个关键特征：(I)模式提取机制，允许模型通过数据样本与其服务正常模式之间的相关性来检测异常，并适应正常模式的多样性；(Ii)二元卷积机制，其放大时间域中的异常并阻碍频域中的重建；(Iii)利用频域固有的稀疏性和并行性来提高模型效率。我们通过数学分析和广泛的实验证实了我们的方法，证明了选择基于正常模式的傅立叶基子集比使用完整的频谱具有更好的性能。全面的实验证实了Mace在有效处理各种正常模式方面的熟练程度，在以最先进的方法为基准时，以高效率展示了最佳性能。

萧宛亦

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Learning Multi-Pattern Normalities in the Frequency Domain for Efficient Time Series Anomaly Detecti

异常检测显着增强了云系统的稳健性。虽然基于神经网络的方法最近表现出了强大的优势，但它们在云环境中遇到了实际挑战：为每个服务维护唯一模型的不切实际与通过统一模型处理各种正常模式的能力有限之间的矛盾，以及作为实时处理大流量和短期异常检测灵敏度的问题。因此，我们提出了 MACE，一种适应多正态模式的频域有效异常检测方法，用于时间序列异常检测。
复制链接

扫一扫