Revisiting VAE for Unsupervised Time Series Anomaly Detection: A Frequency Perspective

最新推荐文章于 2024-10-10 12:45:12 发布

萧宛亦

最新推荐文章于 2024-10-10 12:45:12 发布

阅读量315

点赞数 5

文章标签：机器学习人工智能

原文链接：https://arxiv.org/abs/2402.02820

版权

系列文章目录

重新审视VAE在无监督时间序列异常检测中的应用:频率视角 2024 Association for Computing Machinery

摘要

时间序列异常检测(AD)在web系统中起着至关重要的作用。各种网络系统依赖于时间序列数据来实时监测和识别异常，并启动诊断和补救程序。变分自编码器(VAEs)由于其优越的去噪能力而在近几十年来得到了广泛的应用，这对异常检测非常有用。然而，我们的研究表明，基于vae的方法在同时捕获长周期异质模式和详细的短周期趋势方面面临挑战。为了解决这些挑战，我们提出了频率增强条件变分自编码器(FCVAE)，这是一种针对单变量时间序列的新型无监督AD方法。为了保证AD的准确性，FCVAE采用了一种创新的方法，将全局和局部频率特征同时集成到条件变分自编码器(Conditional Variational Autoencoder, CVAE)的条件中，显著提高了正常数据重构的准确性。结合精心设计的“目标注意”机制，我们的方法允许模型从频域中挑选最有用的信息，以更好地构建短周期趋势。我们的FCVAE已经在公共数据集和大型云系统上进行了评估，结果表明它优于最先进的方法。这证实了我们的方法在解决当前基于vae的异常检测模型的局限性方面的实际适用性。

提示：以下是本篇文章正文内容

一、引言

时间序列异常检测(AD)在web系统中无处不在[9,11,13,14,17,21,33,36,49,50]。许多网络系统，例如在线广告系统，都是使用大量时间序列数据(例如，转化率)进行监控的。部署时间序列AD算法对于及时检测异常并启动后续诊断和补救过程至关重要。

在现实世界的时间序列数据[41]中，异常是罕见的，这使得标记异常和训练异常检测的监督模型[50]变得困难。相反，通常使用无监督机器学习技术[5,7,16,18,27,34,50,54,57 - 59]。这些技术可以分为两类:基于预测的[16,18,59]和基于构造的[5,27,34,50,54]。这两种类型都旨在识别正常值，并将其与实际值进行比较，以检测异常。基于预测的方法最初是为了预测未来的数据点而开发的，无论它们是正常的还是异常的。然而，这些方法可能会过度拟合异常模式而表现不佳。另一方面，变分自编码器(Variational AutoEncoders, VAEs)[23]是一种领先的基于构造的方法，它将原始时间序列编码到较低维的潜在空间中，然后将其重建到原始维度。VAEs非常适合于异常检测，但现有的基于VAEs的异常检测模型尚未达到理论上的最佳性能。在本文中，我们旨在重新审视VAE模型并提高其在异常检测中的有效性。在这里插入图片描述
图1:本文提出的四种KPI重建方法的比较，红色部分突出显示异常③。绿色阴影⑤表示重建值与原始值之间的差异，红色阴影②表示较长的周期，蓝色椭圆④表示未正确重建的峰谷，蓝色矩形①将在图2中放大以进行详细比较。

为了更有效地演示与基于vae的技术相关的挑战，我们在图1中提供了一个示例。原始曲线显示在第一个子图中，异常以红色突出显示③。随后的四个子图表示通过四种不同的vae方法重建的曲线，包括我们提出的方法(称为FCVAE)。重建误差用绿色阴影区域⑤表示。为了获得较好的AD性能，重建结果对于正态点应与原始曲线接近，而对于异常点则应与原始曲线明显偏离。如图所示，所有基于vae的方法都成功地忽略了重建过程中的异常。然而，对于一些法线点，特别是用蓝色矩形①和椭圆④标记的法线点，重建结果并不令人满意。这在很大程度上影响了整体性能，导致我们确定了在后续部分中要解决的三个关键挑战。在这里插入图片描述

图2:图1中由蓝色矩形包围的区域的详细视图，其中阴影区域表示应用滑动窗口平均值之前的值范围。

挑战1:捕获相似但异构的周期模式。从图1中，可以在曲线中观察到周期模式，其中一个这样的周期由红色阴影区域②所强调。然而，不同时期的形状有所不同。正如蓝色椭圆所示，现有的基于vae的方法(如第二个子图所示)无法有效地捕获这些异构模式。这个观察结果自然导致了利用条件VAE将数据映射到不同的高斯空间的想法，通过将时间戳作为一个条件。不幸的是，正如第四个子图(Time CVAE[27])所示，结果并不令人满意，我们将在下面进一步讨论。

挑战2:捕捉详细的趋势。重建单调的模式(即趋势)乍一看似乎很简单。然而，在对局部窗口(图1中突出显示的蓝色矩形①和图2(a)的放大)进行更仔细的检查后，很明显，现有的方法无法在这个时间框架内恢复详细的模式。在图2(a)中，两条绿线最初高估了地面真值(紫色曲线)，但随后在窗口的其余部分低估了它。这主要是因为现有方法的目标是最小化整体重建误差，而不关注“点对点”的依赖关系，例如，精确的向上和向下的范围跟随一个特定的点。这种遗漏导致重建结果波动(见第二个子图)。CNN虽然尝试在窗口内建立点对点依赖关系的模型，但仍然会产生粗粒度的波动(如图1的第三个子图所示)。CNN- cvae结果不理想的原因见图2(b)。通过对各种方法重建的曲线进行转换(图2(b))，可以明显看出，这些现象的主要原因是现有方法中缺少某些频率(某些频率的幅度较小)，阻碍了详细模式的重建。这一观察结果在逻辑上暗示了在条件变分自编码器(CVAE)中使用频率作为条件因子的可能性。然而，在CVAE中使用频率作为条件提出了新的挑战。

挑战3:大量的子频率使CVAE条件下的信号有噪声，难以使用。直接将整个窗口转换到频域会产生大量的子频率，增加了噪声并阻碍了有效的基于vae的重建。为了解决这些问题，我们将整个窗口细分为更小的窗口，并提出了一种目标注意方法来选择最有用的子窗口频率。

本文介绍了一种新的无监督异常检测算法FCVAE (Frequency-enhanced Conditional Variational AutoEncoder，频率增强条件变分自编码器)。与现有的基于vae的异常检测方法不同，FCVAE创新地结合了全局和局部频率信息来指导编解码过程，可以有效地捕获异构周期和详细的趋势模式。这反过来又可以实现更准确的异常检测。本文的贡献可以概括为以下几点:

•我们对广泛使用的用于异常检测的VAE模型的分析表明，现有的基于VAE的模型无法捕获异构周期模式和详细的趋势模式。我们将这种失败归因于一些频域信息的缺失，而当前的方法无法重建这些信息。
•我们的研究通过关注频率系统地改善了长期存在的VAE。本文提出的FCVAE使基于vae的异常检测方法再次成为当前异常检测的前沿。这一点很重要，因为基于vae的方法本质上可以处理混合的异常-正常训练数据，而基于预测的方法则不能。
•评估表明，我们的FCVAE大大超过了最先进的方法(就F1分数而言，在公共数据集上约为40%，在现实世界的网络系统中为10%)。综合烧蚀研究对该模型进行了深入分析，揭示了其优越性能背后的原因。

本文的复制包，包括我们所有的数据、源代码和文档，可以在https://github.com/CSTCloudOps/FCVAE上公开获取。

二、PRELIMINARIES

2.1问题陈述

给定一个UTS $\mathbf{x}=\begin{bmatrix}x_{0},x_{1},x_{2},\cdots,x_{t}\end{bmatrix}$ ，标签序列 $\mathbf{L}=[l_0,l_1,l_2,\cdots,l_t]$ ，其中， $x_{i}\in\mathbb{R},l_{i}\in\{0,1\},\mathrm{~and~}t\in\mathbb{N}.$ 表示整个时间序列数据数组，而表示 $t\in\mathbb{N}$ 时间序列上的度量值。L表示时间序列x的标号。我们将UTS异常检测任务定义如下:

给定UTS $\mathbf{x}=[x_{0},x_{1},x_{2},\cdots,x_{t}]$ ,OFUTS异常检测的目标是利用每个点前的数据 $[x_0,x_1,\cdots,x_{i-1}]$ 进行预测。

2.2 VAEs和CVAEs

VAE由一个编码器 $q_\phi(\mathbf{z}|\mathbf{x})$ 和一个解码器 $p_{\theta}(\mathbf{z}|\mathbf{x})$ 组成。VAE可以通过使用重参数化技巧进行训练。SGVB[39]是一种常用的VAE训练方法，因为它简单有效。最大化证据下界(ELBO)，同时训练vae的重建和生成能力。

DONUT[50]提出了改进的ELBO (M-ELBO)来减弱窗口内数据异常和缺失对重建的影响。M-ELBO定义在式(1)中，定义为指标，其中， $\alpha_{w}$ =1表示不存在异常或缺失， $\alpha_{w}$ =0表示存在异常或缺失。 $\text{β}$ 定义为 $(\sum_{w=1}^W\alpha_w)/W.$ 。

在这里插入图片描述
cvae[43]的整体结构与VAE相似，它将条件生成模型与VAE相结合，实现了对生成数据更强的控制。CVAE的训练目标定义为(2)，其中c为条件，与vae相似。FCVAE(稍后将详细阐述)通过纳入频率信息扩展了CVAE框架。

在这里插入图片描述

三、方法

3.1框架概述

在这里插入图片描述
所提出的异常检测算法如图3所示，包括三个主要部分:数据预处理、训练和测试。

3.2数据预处理

数据预处理包括标准化、缺失点和异常点的填充以及新引入的数据增强方法。数据标准化和填补缺失点和异常点的有效性已经在先前的研究中得到证实[27,30,50]。因此，我们直接将这些技术合并到我们的方法中。

以往的数据增强方法[26,47,53]通常会加入正态样本，例如来自时域或频域的数据变化。然而，对于我们的方法，我们通过将数据集中的所有时间序列合并在一起来训练模型，这提供了足够的模式多样性。此外，由于增加了频率信息，FCVAE具有提取模式信息的能力，可以很好地处理新的模式。尽管如此，即使引入了频率信息，异常通常也很难有效地解决。为了使模型学习如何处理异常，我们主要关注异常数据的增强。在时间序列数据中，异常多表现为模式突变或值突变(如图6所示)，因此我们的数据扩充主要针对这两个方面。通过结合来自不同曲线的两个窗口来产生模式突变的增强，以结作为异常。值突变是指将窗口中的某些点改变为随机分配的异常值。使用增强的异常数据，CVAE中的M-ELBO(将在后面详细介绍)即使在没有真标签的无监督设置中也可以表现良好。
在这里插入图片描述

图6:两个最常见的异常示例，其中红色阴影区域表示异常段。

3.3网络结构

建议的FCVAE模型如图4所示。它包括三个主要部件:编码器、解码器和条件提取块，条件提取块包括全局频率信息提取模块(GFM)和局部频率信息提取模块(LFM)。方程(3)说明了我们的模型是如何工作的。
在这里插入图片描述

3.3.1 GFM.

GFM模块(图7)使用FFT变换(F)提取全局频率信息。然而，并非所有频率信息都是有用的。由时间序列数据中的噪声和异常引起的频率在频域上表现为长尾。因此，我们在FFT之后使用线性层来过滤出可以表示当前窗口模式的有用频率信息。此外，我们在Fedformer[60]之后加入dropout层，以增强模型学习缺失频率信息的能力。
在这里插入图片描述
$f_{global}\in\mathbb{R}^{1\times d}$ 计算如式(4)，其中d为全局频率信息的嵌入维数， $\mathcal{F}$ 为FFT。

在这里插入图片描述

3.3.2 LFM

注意机制[46]由于能够动态处理不同时间步长之间的依赖关系并关注重要的时间步长而被广泛应用于时间序列数据处理中。目标注意力是在注意力的基础上发展起来的，在推荐领域得到了广泛的应用。具体来说，目标注意力可以衡量目标领域的特征，从而更准确地适应领域。

GFM模块从整个窗口提取频率信息，证明了在整个窗口内重构数据的有效性。然而，我们使用一个窗口来检测最后一个点是否异常，这是一个挑战，因为GFM模块没有对最后一个点提供足够的关注。这可能导致这样一种情况，即部分窗口的重构令人满意，而另一部分则不满意，特别是当系统服务的更改导致时间序列数据中的概念漂移时。即使在没有概念漂移的情况下，GFM也不能捕获局部变化，因为它从整个窗口提取平均频率信息;因此，最后一个关键点的重建可能不令人满意。尽管如此，如前所述，目标注意力可以有效地解决这个问题，因为它捕获整个窗口的频率信息，同时更关注最近的时间点。因此，我们提出了包含目标注意的LFM。

如图5所示，LFM模块通过滑动整个窗口x来获得几个小窗口 $\mathbf{x}_{sw}$ 。然后对每个小窗口进行FFT和频率信息提取。使用最近的小窗口作为查询𝑄，因为它包含我们想要检测的最后一个点。剩余的小窗口用作目标注意力的键𝐾和值V。最后，采用线性层来方便模型学习提取局部频率信息中最重要、最有用的部分，并采用dropout来增强模型重构局部频率信息(如GFM)的能力。在这里插入图片描述
LFM中 $f_{local}\in\mathbb{R}^{1\times d}$ 的计算如式(5)所示，其中𝑑为局部频率信息的嵌入维数，与GFM相同。其中， $\mathbf{x}_{sw}\in\mathbb{R}^{n\times k}$ 表示从原始窗口中提取的一组小窗口，𝑘为小窗口的尺寸，𝑛为小窗口的个数。Select函数用于选择最近的窗口作为查询𝑄，Dense函数表示密集神经网络。使用softmax函数来计算小窗口的注意权值。

3.4 Training and Testing

FCVAE的训练过程包含三个关键技术:基于cvae的修正证据下界(CM-ELBO)、缺失数据注入以及新提出的掩盖最后一点。如(6)所示，将MELBO[50]应用于CVAE得到CM-ELBO。缺失数据注入[30,50]是我们直接应用的VAE中常用的技术。我们观察到时间序列数据中的异常点在时域中表现为离群值。然而，当数据转换到频域时，所有的频率信息都发生了移位，这是一个挑战。当最后一个点异常时，这个问题的影响将被放大，因为我们的目标是在给定整个窗口的情况下检测最后一个点。虽然我们使用频率增强方法和频率选择在一定程度上缓解了这个问题，但我们在提取频率条件时将最后一点掩盖为零，以进一步解决这个问题。
在这里插入图片描述
在测试中，FCVAE采用[39]中提出并应用于[30]的基于马尔可夫链蒙特卡罗(Markov Chain Monte Carlo, MCMC)的缺失补入算法来减轻缺失数据的影响。由于我们的目标是检测窗口的最后一个点，因此最后一个点被设置为missing，以便MCMC获得正常值。这也允许更好地适应前面提到的最后一个点蒙版。FCVAE进一步利用重构概率作为异常分数，其定义如式(7)所示。

在这里插入图片描述

四、实验

4.1实验设置

4.1.1数据集

为了评估我们提出的算法的有效性，我们在四个数据集上进行了实验。Yahoo b[2]是Yahoo实验室发布的开放异常检测数据集。KPI [28] KPI来自五大互联网公司(搜狗、eBay、百度、腾讯、阿里)。WSD [1] Web服务数据集(WSD)包含从提供大规模Web服务的三个顶级Internet公司百度、搜狗和eBay收集的真实kpi。Numenta异常基准(NAB)是Numenta公司创建的一个开放数据集，用于评估时间序列异常检测算法的性能。

4.1.2基线方法

为了将我们的模型FCVAE与现有方法进行比较，我们选择了以下方法进行评估:SPOT[42]、SRCNN[38]、TFAD[53]、DONUT[50]、Informer[59]、Anomaly-Transformer[51]、AnoTransfer[54]、VQRAE[22]。SPOT是一种基于极值理论的传统统计方法。SRCNN和TFAD是依靠高质量标签的监督方法。Donut、VQRAE和AnoTransfer是基于无监督重建的方法，利用VAE进行正常值重建。Informer是一种基于无监督预测的方法，它试图通过注意机制来预测正常值。anomaly - transformer是一种利用变压器架构的无监督异常检测方法。

4.1.3评价指标。

在实际应用中，操作员往往不太关心逐点的异常检测，即每个单独的点是否被分类为异常，而更多地关注于检测时间序列数据中连续的异常片段。此外，由于异常段的影响很大，运营商希望尽早识别这些异常段。为了满足这些需求，我们采用了两个指标，分别是基于donut[50]和SRCNN[38]的最佳F1和延迟F1。

在这里插入图片描述
图8:调整策略的说明。

通过遍历异常分数的所有可能阈值来获得最佳F1，然后对预测应用点调整策略以计算F1分数。延迟F1类似于最佳F1，但采用延迟点调整策略对预测进行变换。调整策略如图8所示，以延迟设置为1为例。检测器错过了第二个异常段，因为它需要两个时间间隔来检测该段，超过了我们建立的最大延迟阈值。我们将所有数据集的延迟配置为7，除了Yahoo，它被设置为3,NAB，它被设置为150。这是因为雅虎的异常片段非常短，而NAB的异常片段通常要长得多，通常跨越数百个数据点。

表1:测试数据的性能。P表示精度，R表示召回率，F1表示最佳F1, F1*表示延迟F1。

在这里插入图片描述

4.1.4具体实现

为了保证广泛的适用性，下面所述的所有实验都是在完全无监督的条件下进行的，没有使用任何实际的标签(所有的标签都设置为零)。为了所有方法的一致性，我们为数据集中的所有曲线训练了一个单一的模型。关于超参数，我们进行了网格搜索，以确定不同数据集的最有效参数。此外，我们随后评估了这些参数的敏感性，以确保稳健的性能。

4.2整体性能

表1描述了FCVAE和基线方法在四个数据集上的性能。我们的方法在四个数据集上优于所有基线的最佳F1分别为6.45%、0.98%、14.14%和0.31%。在延迟F1方面，我们的方法在4个数据集上比所有基线分别高出4.98%、1.58%、38.68%和0.65%。

各种基线方法在数据集上的性能表现出相当大的差异。例如，SPOT[42]在大多数数据集上并不出色，因为它错误地将极值视为异常，而异常并不总是表现为异常。SRCNN[38]是一个相当熟练的分类器，但与大多数其他模型相比，它的性能有所不足。这强调了一个事实，即隐式提取异常特征是具有挑战性的。Informer[59]在不同数据集上的表现优于大多数其他基线，因为许多异常表现出显著的值跳跃，基于预测的方法可以有效地管理这种情况。然而，它与频率变化引起的异常作斗争。在大多数数据集上，就最佳F1而言，AnomalyTransformer[51]获得了值得称赞的结果，但展示了较低的延迟F1。它基于与附近点的关系来检测异常，只有当异常点在窗口内相对中心时，才能容易捕获相关性。相反，TFAD[53]在各种数据集上都取得了良好的结果，但存在一定的检测延迟。

此外，我们的方法在基于重建的方法方面优于DONUT[50]和VQRAE[22]。尽管VQRAE[22]引入了许多对VAE的修改，使用RNN来捕获时间关系，我们的方法仍然优于它。这一发现意味着，对于UTS异常检测，必须仅合并关键信息，同时避免使用多余的数据使模型过载。

4.3 CVAE的不同条件类型

我们在相同的环境下进行实验，以评估不同类型的条件。所选择的条件包含在我们理解的范围内可能对时间序列异常检测有用的信息，包括时间戳[54]、时域信息和频域信息。为了确保一致性，我们对时域信息应用与频域信息相同的操作。

如图9(a)所示，使用频率信息作为条件的性能优于使用时间戳或时域信息。这很容易理解，因为时间戳携带的信息有限，通常需要单热编码，导致数据表示稀疏。在VAE中已经包含了时域信息，利用时域信息作为条件可能会导致信息冗余，对重构没有明显的好处。相反，频率信息作为一种有价值和互补的先验，使其成为异常检测的更有效条件。

4.4频率VAE和面部VAE

CVAE是异常检测中利用频率信息的最佳策略吗?在本研究中，我们将FCVAE与一种改进的基于频率的VAE (FVAE)模型进行了比较，FVAE模型将频率信息与输入一起集成到VAE中以重建原始时间序列。如图9(b)所示，FVAE优于FVAE。这一结果可归因于两个主要原因。首先，CVAE由于其独特的包含条件信息的体系结构，在许多应用中本质上优于VAE。其次，FVAE没有充分利用频率信息。虽然它包含了这些附加信息，但在实践中仍然缺乏有效的利用，特别是在解码器中。因此，将频率信息作为条件的CVAE代表了迄今为止已知的最有效的结构。

4.5 GFM和LFM

我们提出GFM和LFM分别用于提取全局和局部频率信息。但是，这两个模块的设计是否达到了我们的预期效果呢?此外，值得注意的是，GFM和LFM可能在某种程度上重叠。因此，我们想确定将两者结合是否可以进一步提高性能。

我们进行了实验，结果如图9©所示。可以观察到，在四个数据集中，除了NAB数据的频繁振荡导致GFM提取的信息与当前时间的数据值不一致外，在其他设置的相同条件下，在FCVAE中使用LFM或GFM都优于VAE模型。对于所有数据集，当LFM和GFM模块同时使用时，它们相互协同增强，从而获得更好的性能。因此，全局和局部频率信息在异常检测中都起着至关重要的作用。
在这里插入图片描述图9:不同设置的延迟F1得分

4.6注意机制

分辨LFM的增强是源于窗口大小减小还是注意机制是至关重要的。因此，我们在保持GFM不变的情况下，将注意力操作排除在LFM之外进行实验。具体来说，我们利用了LFM中最新小窗口的频率信息(latest)或LFM中所有小窗口的频率信息的平均池化(average pooling)。

图9(d)的研究结果表明，由于无法提前确定每个小窗口的权重，如果不加以注意，就无法获得FCVAE的原始性能。然而，注意力机制通过为更多信息窗口分配更高的权重有效地解决了这个问题。
在这里插入图片描述
(a)右侧黑色虚线框内数据的小窗口谱。(b)一批LFM注意力热图。第8个窗口是最新的窗口。

图10:LFM中注意机制的一个例子。

我们用一个案例对LFM中的注意机制进行了全面的解释。选择一个特定的数据段，如图10(b)中黑色虚线框所示，将LFM滑动窗口模块产生的所有小窗口转换到频域，得到它们的频谱。如图10(a)所示，第5个(绿色)和第8个(红色)窗口显示出最高的相似性，其中第8个窗口作为我们注意的查询𝑄。查看图10(b)可以看到，第5个窗口的热值最高，这与图10(a)的发现相对应。

4.7框架中的关键技术

在本节中，我们评估了我们的新数据增强技术的有效性，掩盖了最后一点，以及CM-ELBO在四个不同数据集上的应用。结果如表2所示。基于结果，很明显CM-ELBO在大多数数据集中起着最关键的作用，这与我们的预期一致。这是因为它可以在一定程度上容忍数据异常或丢失。此外，掩盖最后一点对结果有很大的影响，因为当异常发生在窗口的最后一点时，它会影响整个频率信息。有效地掩盖这一点解决了这个问题，提高了检测精度。另一方面，数据增强引入了一些人为异常来提高CM-ELBO的性能，特别是在无监督的环境中。

在这里插入图片描述

4.8参数敏感性

模型对不同参数的稳定性是需要考虑的一个重要方面，因此我们在KPI和wsd两个数据集上测试了模型参数的灵敏度。我们考察了四个方面:条件维度、窗口大小、缺失数据注入比例和数据增强比例。结果如图11所示，在不同的参数设置下，我们的模型都能获得稳定而优异的结果。

在这里插入图片描述

五、生产影响和效率

我们的FCVAE方法已被纳入迎合全球数百万用户的大型云系统中作为关键组件[6,19,20]。该系统每天生成数十亿个时间序列数据点。FCVAE检测云系统中的异常，其主要目标是识别系统中可能指示事件发生的任何潜在回归。在这里插入图片描述

表3展示了使用FCVAE在一年内实现的在线性能改进。实验在24GB内存的3090 GPU上进行。结果表明，与传统检测器相比，在最佳F1和延迟F1方面都有了实质性的增强。这强调了我们提出的方法的有效性和鲁棒性。此外，我们的模型重量轻，效率高，能够在1秒内处理超过1000个数据点。这远远超过了系统产生新时间点的速度。

六、相关工作

传统的统计方法[32,35,37,40,44,45,56]因其在时间序列数据处理方面的巨大优势，在时间序列异常检测中得到了广泛的应用。例如[37]通过FFT[45]找到数据的高频异常部分，并进行两次验证。Twitter[44]使用STL[8]来检测异常点。SPOT[42]认为某些极值是异常的，因此通过极值理论[10]进行检测。

监督方法[24,31,38,57]主要是学习异常特征，并根据学习到的特征通过分类器识别异常。Opprentice[31]通过随机森林有效地组合了多个检测器的结果。SRCNN[38]通过谱残差[15]和CNN构建分类器。有些方法[3,53]通过数据增强获得伪标签，增强学习能力。

无监督方法主要分为基于重建的方法和基于预测的方法。基于重建的方法[5,22,27,29,50]学习低维表示，重建数据的“正常模式”，并根据重建误差检测异常。DONUT[50]提出了改进的ELBO来增强vae重建正常数据的能力。Buzz b[5]是第一个提出深度生成模型的人。ACVAE[29]在vae的基础上增加了主动学习和对比学习。基于预测的方法[18,59]试图根据历史数据预测指标的正态值，并根据预测误差检测异常。信息者[59]改变了自我注意的相关机制，以达到更好的预测效果和效率。近年来，基于变压器的方法被广泛提出。Anomaly-Transformer[51]通过比较两个分布之间的Kullback-Leible (KL)散度来检测异常。一些方法[48,60]已经开始从频域解决一些实际问题。此外，已经提出了许多迁移学习方法[12,27,54,55]。

七、结论

我们的论文提出了一种新的无监督方法来检测UTS中的异常，称为FCVAE。在模型层面，我们引入频域信息作为使用CVAE的条件。为了更准确地捕获频率信息，我们提出利用GFM和LFM同时捕获全局和局部频域特征，并利用目标注意力更有效地提取局部信息。在体系结构层面，我们提出了几种新技术，包括CM-ELBO、数据增强和最后一点掩码。我们在四个数据集和一个在线云系统上进行了实验来评估我们的方法的准确性，并进行了综合烧蚀实验来验证每个模块的有效性。