A MASKED ATTENTION NETWORK WITH QUERY SPARSITY MEASUREMENT FOR TIME SERIES ANOMALY DETECTION

系列文章目录

用于时间序列异常检测的具有查询稀疏度测量的掩模注意力网络 2023 IEEE International Conference on Multimedia and Expo (ICME)



摘要

摘要:时间序列异常检测近年来得到了广泛的研究。 先前的研究重点是用于特征学习的点特征和成对关联或基于先验知识设计的异常分数。 然而,这些方法无法充分学习复杂的异常动态信息,只能识别有限类别的异常。 我们提出了带有查询稀疏性测量的屏蔽注意力网络(MAN-QSM)来解决上述挑战。 该模型使用两种先验知识,从成对关联和序列级信息两个角度充分利用正常点和异常点之间的差异。 我们设计了异常屏蔽机制来配合训练策略来放大正常点和异常点之间的差异。 在实验中,我们将该模型与经典方法、基于重构的模型、基于自回归的模型和最先进的模型进行了比较,MAN-QSM 在 SMD、PSM 和 MSL 上取得了最先进的结果 数据集的错误率平均降低了 16%。


一、引言

语音、视频、图像等多媒体数据按时间顺序采集,从而产生大量复杂的时态数据。 数据中存在大量信息,人们应用异常检测技术来检测多媒体数据中的异常事件。 由于时态数据中缺乏大量能够正确标记的异常数据,人们探索了用于异常检测的无监督学习方法。

最初,人们使用统计方法和机器学习来进行异常检测,例如 KNN [1] 和 LOF [2]。 由于深度神经网络擅长从不同类型的数据(例如高维数据、图像数据、视频数据、语音数据等)中学习复杂的结构和关系[3],因此它们已被广泛研究并应用于时域 学者们的异常检测。 这些方法主要分为基于预测和基于重建的方法。 然而,这两类方法学习正常样本的通用特征。 这些模型不能很好地区分罕见和复杂的异常,并且不能直接输出异常分数。 一些学者通过将现有的异常评估指标嵌入到表示学习的优化目标中来优化经典模型,例如Deep one-class SVM [4]和Deep one-class SVDD [5]。 然而,这些模型无法克服底层模型的缺陷。 如果正态样本分布是复杂的而不是单一分布,则此类方法可能会失败。

最近一些学者将正态-异常分布的先验知识引入到内部模块和训练策略中以获得异常分数,例如Anomaly Transformer [6]。 作者提出了关联差异,并设计了 Minmax 策略来放大关联差异的正常与异常区分能力。 但类似的研究方法也存在以下缺陷:

1)基于成对关联的单一先验知识不能推广到所有异常。 时间序列数据的异常复杂多样,对于某些异常可能只有一种先验知识有效。 如图2所示,如果存在多峰异常,则关联差异将与理想状态(图1)相反,并且无法准确地区分异常。 同时,关联差异依赖于Transformer机制,它注重点与点之间的相似性,无法从序列层面获取异常的动态信息,从而导致遗漏一些异常。

2)现有的训练策略在增强异常与正常区分度方面效果有限。 像Minimax这样的训练策略的目的是通过强制所有点聚焦于非相邻点进行重建来放大正态与异常的可区分性,并通过观察重建效果和正态与异常分布的差异(如关联差异)来识别异常。 尽管增强了对非相邻点的关注,但异常仍然在重建中获得有关自身和相邻点的信息。 此外,基于成对关联学习的训练策略对模式异常关联差异的放大是有限的。

在这里插入图片描述

图1.单峰异常窗口中正常点和异常点之间的关联差异。 异常点与正常点之间的关联差异明显,可以区分异常点。

在这里插入图片描述

图2. 具有多峰异常的窗口中正常点和异常点之间的关联差异。 异常点与正常点之间的关联差异与理想状态相反。

为了克服单一先验知识对异常判断的限制,我们引入基于序列动态信息的先验知识,以充分利用正常点和异常点之间的差异。 掩模机制用于配合训练策略有效放大异常与正常的区分度。 具体来说:

1)引入基于序列动态信息的查询稀疏性测量(QSM),可以推广到各种异常。 受先前工作[7]的启发,自注意力分数形成长尾分布。 序列中的一个元素通常只与少数元素有高度关联,这为正常-异常点提供了自然的可分离原则。 正常点与大多数序列元素高度相关,自注意力得分趋于均匀分布。 由于其特殊和罕见的性质,异常仅与它们的接近度相关,因此自注意力分数将形成长尾分布。 值得注意的是,我们通过与均匀分布进行比较来获取序列级别的信息。 我们掩盖了点的接近度以弥补上述缺陷(省略多峰异常)。 由于正常点与大多数点的相似性,它们在屏蔽自注意力分数中仍然显示出均匀分布。 由于高度相关的近端点的屏蔽,异常点的自注意力分数分布将发生显着变化。 通过比较屏蔽前后点的自注意力分数分布的变化来区分正常点和异常点。

2)采用掩码机制,有效放大正常与异常的区分度。 在系列关联[6]中,我们屏蔽[8]点本身,以确保重建不依赖于它们自己的信息。 我们在依赖高斯核函数建立的先验关联[6]上掩盖了邻近点的位置信息。 训练策略将迫使系列关联在重建中较少关注邻近度,因为邻近度信息被放大。 依赖非相邻点信息的异常难以重建,因此难以与正常点区分开。 同样与训练策略相一致,掩模机制放大了正常与异常的区分度。

我们的贡献。 我们提出了一种带有查询稀疏性测量(MAN-QSM)的屏蔽注意力网络,用于时间序列异常检测。 我们通过引入正常-异常自注意力分数分布与均匀分布之间差异的先验知识来优化异常标准; 另一方面,我们设计了掩模机制,在训练策略的协同作用下放大正常与异常的区分度。 在 PSM、MSL 和 SMD 数据集上取得了最先进的异常检测结果,F1 分数的错误率平均降低了 16%。

II. METHOD

A. Problem preliminary

X 是时间序列数据 X = { x 1 , x 2 , ⋯   , x n } X=\{x_{1},x_{2},\cdots,x_{n}\} X={x1,x2,,xn},n 个观测值的有序序列。 X 中的每个观测值都是一个具有 D 个变量的向量(即 x t ∈ R D , ∀ x t ∈ X x_t\in R^D,\forall x_t\in X xtRD,xtX)。 当 D > 1 时,X 被视为多变量时间序列;当 D = 1 时,X 被视为单变量时间序列。 x t x_t xt 表示时刻 t 的观测值。 我们的目标是学习一个函数 f : X ↦ Y f:X\mapsto Y f:XY,它在没有标签的情况下为每个时刻的观察结果给出异常分数。 异常分数越高表明出现异常的可能性越高。

我们使用序列数据上的局部上下文窗口的划分来建模其上下文的时间依赖性。 具体来说,使用长度为l的滑动窗口将训练数据集变换为子序列的集合 S = { s 1 , s 1 + r , ⋯   } S=\{s_1,s_{1+r},\cdots\} S={s1,s1+r,},其中 s t = { x t , x t + 1 , ⋯   , x t + l − 1 } s_t=\{x_t,x_{t+1},\cdots,x_{t+l-1}\} st={xt,xt+1,,xt+l1}。推理阶段的测试集也以同样的方式处理。

B. Overall structure

掩模注意块是模型的主要模块,它与残差和归一化层以及前馈层形成网络的一层。 为了捕捉数据复杂的内在联系,并使网络结构获得更鲁棒的表示能力,我们设计了多层堆叠网络(图3)。

在这里插入图片描述
X l ∈ R N × d model  , l ∈ { 1 , ⋯   , L } \mathbf{X}^l\in\mathbb{R}^{N\times d_\text{model }},l\in\{1,\cdots,L\} XlRN×dmodel ,l{1,,L}表示第 l 层具有 d m o d e l d_{\mathrm{model}} dmodel 通道的输出。 初始输入 X 0 = E m b e d d i n g ( X ) \mathbf{X}^0 = \mathrm{Embedding}(\mathbf{X}) X0=Embedding(X)表示嵌入的原始序列。 Z l ∈ R N × d m o d e l \mathbf{Z}^l \in \mathbb{R}^{N\times d_{\mathrm{model}}} ZlRN×dmodel是第 l 层的隐藏表示。

C. Mask attention block

Masked Prior Association 在掩模注意块中,先验关联使用高斯核函数根据两点之间的相对距离来获得点与其邻近度的关联。 我们屏蔽该点附近的 2*t 点。 这些邻近点的相对距离设置为0以完成信息最大化,其他点根据原方程计算。

在这里插入图片描述
其中 P l ∈ R N × N \mathbf{P}^l\in\mathbb{R}^{N\times N} PlRN×N是掩码先验关联,σ ∈ R N × 1 \mathbb{R}^{N\times1} RN×1 表示学习尺度。 W σ l ∈ R d model  × 1 W_\sigma^l\in\mathbb{R}^{d_{\text{model }\times1}} WσlRdmodel ×1 表示第 l 层中 σ 的参数矩阵。

Masked Series Association 系列关联利用自注意力机制从原始序列中自适应地寻找最有效的关联并完成重构。 我们掩盖了这些点本身。

在这里插入图片描述
其中 Q , K , V ∈ R N × d m o d e l \mathbf{Q},\mathbf{K},\mathbf{V}\in\mathbb{R}^{N\times d_{\mathrm{model}}} Q,K,VRN×dmodel分别表示 Query、Key 和 Value。 W Q l , W K l , W V l ∈ R d m o d e l × d m o d e l W_{\mathbf{Q}}^{l},W_{\mathbf{K}}^{l},W_{\mathbf{V}}^{l}\in \mathbb{R}^{d_{\mathrm{model}}\times d_{\mathrm{model}}} WQl,WKl,WVlRdmodel×dmodel分别表示第 l 层 Q、K、V 的参数矩阵。 S l ∈ R N × N \mathbf{S}^{l}\in\mathbb{R}^{N\times N} SlRN×N是第 l 层中 maskattention 之后的隐藏表示。 该块连接来自多个头的输出 { Z ^ m l ∈ R N × d m o d e l h } 1 ≤ m ≤ h \left\{\widehat{\mathbf{Z}}_m^l\in\mathbb{R}^{N\times\frac{d_{\mathrm{model}}}h}\right\}_{1\leq m\leq h} {Z mlRN×hdmodel}1mh并得到最终结果 Z ^ l ∈ R N × d m o d e l \widehat{\mathbf{Z}}^l\in\mathbb{R}^{N\times{d}_{\mathrm{model}}} Z lRN×dmodel

查询稀疏度测量。 第 i 个 Query 与所有 Key 的关联定义为概率 p ( k j ∣ q i ) p\left(\mathbf{k}_j\mid\mathbf{q}_i\right) p(kjqi),其与均匀分布 q ( k j ∣ q i ) q\left(\mathbf{k}_j\mid\mathbf{q}_i\right) q(kjqi)的相似度通过 Kullback-Leibler 散度来衡量。 为了简化计算,在之前的工作[7]的基础上,我们通过方程11计算第i个查询的稀疏度,以计算均匀分布的相似度M1。 选择2*k个邻近点来屏蔽其信息,并以相同的方式量化邻近点被屏蔽后第i个查询的稀疏性与均匀分布 q ( k j ∣ q i ) q\left(\mathbf{k}_j\mid\mathbf{q}_i\right) q(kjqi)的相似度M2。 比较两者相似度的差异以获得查询稀疏度测量M。

在这里插入图片描述
其中 L K L_{K} LK表示序列中的点数, L S L_{S} LS表示去除屏蔽点后的点数,其中 L S = L K − 2 ∗ k L_{S}=L_{K}-2*k LS=LK2k

D. Anomaly scores

我们通过利用时间表示和可区分的关联差异,以及通过使用新的先验知识来利用正常点和异常点之间的差异,将 QSM 纳入异常评分中。 最终的异常分数 X ∈ R N × d X\in R^{N\times d} XRN×d如下所示:

在这里插入图片描述

III. EXPERIMENT

在本节中,我们介绍实验设置,然后进行实验来回答以下问题。
• RQ1:与经典和最先进的方法相比,MAN-QSM 在真实数据集上计算的异常检测结果的准确性是否有所提高?
• RQ2:不同的掩模选择如何影响模型的性能?
• RQ3:新的先验知识是否可以推广到不同类型的时间序列异常? 该模型能否检测到最先进模型误判的异常情况?
• RQ4:超参数如何影响模型的性能?

在这里插入图片描述
图 3. MAN-QSM 架构。 MABlock(左)分为三个模块:屏蔽先验关联、屏蔽序列关联和查询稀疏性测量。 我们得到了屏蔽后的先验关联、屏蔽后的系列关联以及 MABlock 中的查询稀疏性差异。 MABlock 的输出通过残差、归一化和前馈层重构为输入数据。 异常分数由重建误差、Minimax策略[6]训练的关联差异和查询稀疏度差异决定。

TABLE I MAN-QSM 在四个真实世界数据集中的定量结果。P、R 和 F1 分别代表准确率、召回率和 F1 得分 (%)。

在这里插入图片描述

A. Experimental setup

数据集。 我们的实验中使用了四个数据集:SMD [22]、PSM [23]、MSL [24] 和 SMAP [24]。 附录 B 基线表 1 给出了简要介绍和统计细节。 我们将 MAN-QSM 与 19 种异常检测方法进行了比较(每种方法的具体信息在附录 C 中给出)。 这些基线包括传统方法和深度方法,代表了时间序列异常检测的最先进性能。 评估指标。 我们使用精度(Prec)、召回率(Rec)和F1分数(F1)作为评估指标。 对于这三个指标,值越高表示性能越好。 实施细节。 对于所有数据集,我们通过大小为 100 的非重叠滑动窗口获得子序列。MAN-QSM 包含三层。 我们将隐藏状态 dmodel 的通道数设置为 512,头数设置为 8。每个数据集使用的具体参数在附录 D 中给出。所有实验均使用单个 NVIDIA Tesla T4 16GB GPU 在 Pytorch 中实现。 我们使用Top-k方法来确定阈值δ。 确定阈值δ以使验证数据集中的r比例数据被标记为异常。 如果其异常分数超过阈值r,则该点被分类为异常。 我们为 SwaT 设置 r = 0.1%,为 SMD 设置 r = 0.5%,为其他数据集设置 1%。

调整策略。 我们使用广泛使用的点调整策略[25]:如果检测到连续异常片段中的某个时间点,则认为该片段中的所有异常都被正确检测到。

B. 与最先进模型的比较(RQ1&RQ2)

我们广泛评估了我们的模型在 4 个真实世界数据集上的有效性,并与 19 个模型进行了比较。 如表一所示,MAN-QSM在几乎所有基准数据集上都取得了最佳性能,展示了MANQSM在时间序列异常检测方面的优势。 F1-score的错误率在SMD数据集上降低了16.29%,在MSL数据集上降低了17.99%,在PSM数据集上降低了16.11%。 不幸的是,MAN-QSM 没有在 SMAP 数据集上取得最佳结果。

我们进一步研究了掩蔽对每个分支的影响。 从表1中我们可以看出,对先验关联进行掩蔽在SMD和PSM上实现了最优结果,对系列关联进行掩蔽在MSL和PSM上实现了最优结果。 在实际应用中,我们重点关注实现更稳定的异常判断。 由于单分支掩码的效果会随着数据变化而波动,因此两分支掩码机制在三个数据集上达到了次优效果,模型表现最为稳定。 因此,我们选择对先验关联和序列关联进行掩蔽。

在这里插入图片描述
图 4. QSM 标准下不同异常类别的可视化。 我们绘制了 NeurIPS-TS 数据集 [26] 的原始序列(第一行)和 QSM 标准(第二行)。 逐点异常用蓝色圆圈标记,基于模式的异常用蓝色线段标记。 蓝线是QSM标准下区分异常的阈值。

在这里插入图片描述

图 5. Anomaly Transformer 和 MAN-QSM 下异常分数的可视化。 我们绘制了 NeurIPS-TS 数据集的原始序列(左),以及基于 Anomaly Transformer 的异常分数(中)和基于 MAN-QSM 的异常分数(右)。 错误分类的区域用红色部分标记,错过的区域用黄色部分标记。

C. Analysis and Discussion(RQ3&RQ4)

QSM 标准的可视化。 之前的工作[26]将时间序列异常分为点异常和模式异常。 点异常进一步分为全局异常和上下文异常,模式异常分为Shapelet异常、季节性异常和趋势异常。 我们使用 QSM 标准来测试 NeurIPS-TS 数据集中的这些异常并进行可视化。 从图4中可以看出,QSM的先验知识可以有效地区分不同类型的异常。

与最先进模型的比较可视化。 我们研究了该模型是否能够比最先进的模型更准确地识别时间序列数据中的不同异常类型。 如图 5 所示,与 Anomaly Transformer 相比,MAN-QSM 成功识别出更多异常。

在这里插入图片描述

图 6. 先前掩模关联中掩模点的数量对 SMD 数据集中的精度、召回率和 F1 的影响。

在这里插入图片描述
图 7. 查询稀疏性测量中掩模点的数量对 SMD 数据集中的精度、召回率和 F1 的影响。

在先前关联中选择屏蔽点。 先验关联中屏蔽点的数量将决定异常是否更多地依赖非相邻点来完成重建。 当屏蔽点太接近时,基于剩余的未屏蔽的近端点仍然可以更好地重建异常,这些近端点与自身强相关并且与正常点的区别微弱。 相反,当屏蔽点距离太远时,大部分信息都会丢失,模型无法进行有效的特征学习。 正常点无法有效地重建序列关联。 异常的正常区分度不会被放大。 我们观察屏蔽点数量对三个指标的影响。 从图 6 可以看出,当掩模点的相对单位距离在 2 以内时,模型在 MSL、PSM 和 SMD 中表现最稳定,在 SMAP 中在 6 以内时表现最稳定。

QSM 中屏蔽点的选择。 从三个指标的趋势可以分析,在屏蔽最近点时,屏蔽前后正常点和异常点之间的QSM变化很小,因为剩余的邻近点仍然与异常点相关。 随着被屏蔽的点距离异常越来越远,这些剩余的点不再与异常相关。 屏蔽前后 QSM 的变化对于异常检测不再实用。 从图7中可以看出,与大多数异常相关的点是MSL和SMD中9个单位距离内的近点,以及PSM和SMAP中7个单位距离内的近点。

IV. CONCLUSION AND FUTURE WORK

在本文中,我们提出了一种用于无监督时间序列异常检测的新模型MAN-QSM,该模型引入了QSM的先验知识,并设计了结合自注意力的异常屏蔽机制。 我们提出的QSM分布弥补了以往研究中对序列动态信息的忽视。 在时间序列异常检测中,探索了一种将mask和self-attention相结合的新机制,为异常检测方法提供了新的思路。 该模型的效果已经在实证研究中得到验证,最大程度地识别出各种异常现象。 因此,它可以应用于语音、图像等数据来识别异常事件。 我们未来的工作将进一步探索 mask 和 self-attention 的结合,使模型能够自动发现不需要的关联,自适应地屏蔽这些关联,提高模型的效率。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值