eBay的工程师利用稳健的方法监测IT系统信号以发现异常。然而,信号规模的增长,无论是在体积还是维度上,都超过了传统的统计状态空间或监督学习工具。因此,最近的研究寻求基于无监督深度学习的最新方法。然而,在实现这些方法时,我们遇到了缺陷,例如需要部分监督和高维数据集的弱点,以及本文讨论的其他原因。本文提出一种从大型多元集合中推断异常的实用方法。在现实世界的应用中观察到大量时间序列,表现出异步和一致的重复变化,如IT、天气、效用和交通。我们的解决方案就是要利用这种行为。该解决方案利用对预训练自编码器的潜表示进行谱分析,以提取信号中的主要频率,然后在后续的网络中使用,该网络学习信号中的相移,并产生原始多元的同步表示。然后,将同步多元的随机子集输入到一个自动编码器数组中,学习最小化分位数重建损失,然后用于根据多数投票推断和定位异常。在公开数据集和eBay数据上,将该方法与最先进的方法进行了基准测试。此外,针对已有评价方法的局限性,提出了一种更符合实际的评价方法。
方法:
本文提出一种深度学习架构,实际利用率高于数学复杂性。首先,我们注意到可以利用时间序列的先验信息来改进学习过程;许多特征以几乎一致的频率振荡。其次,当提供视觉上可解释的阈值时,可靠性工程师和领域官员在总结和分派异常方面更有效。例如,传统单变量统计模型中的置信度限制,并为其提供了在多变量数据集中定位异常的能力。因此,我们提出了RANCoders;具有可选同步表示学习阶段的实际异常检测体系结构RANSynCoders。后者利用基于潜空间表示的傅里叶变换的频谱分析来识别原始特征空间中占主导地位的振荡频率。如果存在,频率作为先验,可以在单独的层中利用,该层学习多元输入的同步表示。本文假设,由于将多维特征的部分非线性依赖关系转换为线性依赖关系,这种同步产生了性能增益。后者在自动编码器中特别有用,将数据从实时空间映射到潜空间[1,12,16,19,22 - 24,33]。如果没有共同振荡或无法识别,则RANSyncoders与RANCoders在其余过程中完全相同。随机特征子集以类似bagging的方式输入到多个自动编码器中,每个自动编码器优化完整多变量集的分位数重建损失。然后,通过多数投票进行异常推断,并通过特征异常频率分析增强定位能力;这种方法背后的直觉是,在高度同步的信号中,一个小子集包含足够的信息,可以在正常操作期间重建集合的完整维度。将该方法与最近在公开数据集和eBay数据集上研究的最先进方法进行了基准测试。此外,还指出了现有评估方法的不足,并提出了一种在实际效率上更能区分模型的评估方法
3 METHODS
1)Latent spectral density estimation
利用快速傅里叶变换(FFT)[31]对单变量潜表示进行谱分析,以识别大小为𝑆的频率向量𝑊。𝑊向量包含理论上占主导地位的频率,通常出现在序列特征中,其中𝑆是足以近似多元时间序列𝑌的正弦成分的数量。我们利用确定的频率来初始化同步表示学习中的权重,如第3.2节所述。本文将该方法与传统的多变量同步估计方法[3,21]进行对比,如下所示:
2)Asynchronous multivariate signal model
相当于在模拟异步的时间序列
Synchronized representation
在模拟异步时间序列
Embedded representation learning
嵌入了同步参数估计和多变量同步过程
RANCoders: Bootstrapped autoencoders for feature-bounds construction
本文提出一种利用自动编码器进行异常检测的替代方法。该方法充分利用了同步多元序列增强的空间共线性特性,对异步信号有很好的处理效果。
这个框架很明显是将异步与同步时间序列模块输出到N个 encoders 中然后分别使用上下界的decoder编码器实现解码,最后实现异常的定位和检测。