A Causal Inference Look at Unsupervised Video Anomaly Detection

最新推荐文章于 2025-05-15 12:26:26 发布

七77.

最新推荐文章于 2025-05-15 12:26:26 发布

阅读量894

点赞数 24

文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_46687145/article/details/147194035

版权

在这里插入图片描述

标题：无监督视频异常检测的因果推断视角
原文链接：https://ojs.aaai.org/index.php/AAAI/article/view/20053
发表：AAAI-2022

摘要

无监督视频异常检测是一项在工业应用和学术研究中都极具挑战性但又非常重要的任务，它不需要任何形式的已标注正常/异常训练数据。现有方法通常遵循迭代伪标签生成过程。然而，它们缺乏对这种伪标签生成对训练影响的原则性分析。此外，长程时间依赖关系也被忽视了，这是不合理的，因为异常事件的定义依赖于长程时间上下文。为此，首先，我们提出一个因果图来分析伪标签生成过程的混杂效应。然后，我们引入一个简单而有效的基于因果推断的框架，以消除噪声伪标签的影响。最后，我们进行基于反事实的模型集成，在推理过程中将长程时间上下文与局部图像上下文相结合，以进行最终的异常检测。在六个标准基准数据集上的大量实验表明，我们提出的方法显著优于以前的最先进方法，证明了我们框架的有效性。

引言

视频异常检测（VAD）是指在视频帧中检测异常事件的任务，例如不寻常的行人运动模式、交通事故和投掷物体等，这些事件与观察到的正常日常活动有显著差异。这项任务的实际重要性吸引了工业界和学术界的广泛研究。大多数此类研究都有一个典型的设置，即数据集中有一组已标注的异常事件，或者训练数据集必须仅包含正常视频，这限制了这类研究的广泛应用。相反，另一类研究则专注于设计完全无监督设置的算法，即不提供任何形式的已标注正常/异常训练数据。在本文中，我们关注的就是这种无监督视频异常检测（UVAD）。为了监督训练，通常采用通过迭代伪标签生成进行自训练的方法，这种技术在无监督学习中得到了广泛研究和应用（Giorno, Bagnell, and Hebert 2016; Ionescu et al. 2017; Wang et al. 2018; Pang et al. 2020）。这种流程背后的关键工作原理有两个方面：第一，由于现实世界中异常事件很少见，学习到的表征会偏向于正常事件，使得异常事件的表征更具判别力；第二，通过启发式设计生成的大多数伪标签足够准确，例如在（Wang et al. 2018）中基于自动编码器的重建和在（Pang et al. 2020）中的Sp + iForest等。
在这里插入图片描述

尽管使用上述伪标签训练的异常检测模型表现出有竞争力的性能，但其性能提升主要来自正确的伪标签。如果没有对错误伪标签带来的负面影响进行原则性分析，进一步的性能提升将受到限制。为了更好地理解噪声伪标签的影响并深入了解这一现象，我们从因果推断的角度来解决这个问题。根据图1，UVAD任务是学习一个模型，该模型可以估计 $P (Y ∣ X, M)$ 。伪标签生成过程（ $\to S \to L)$ ）产生噪声伪标签集 $L$ ，用于监督 $P (Y ∣ X, M)$ 中异常特定特征表示 $M$ 的训练。一方面，正确的伪标签有利于异常特定特征表示学习 $M$ ，从而显著提高性能。这在图1中表示为中介因果路径（ $\to M \to Y)$ ）。另一方面，错误的伪标签通过后门路径（ $\leftarrow E \to S \to L \to M \to Y)$ ）混淆了 $X$ 和 $Y$ 。后门路径被定义为路径的一端有一个箭头指向 $X$ ，另一端指向 $Y$ ，使得 $X$ 和 $Y$ 产生虚假依赖。换句话说，这条因果路径有一个有害影响，它将一些异常/正常事件与正常/异常标签错误地关联起来，从而误导分类器做出错误的预测。因此，我们推测上述两条因果路径的混合因果效应是性能瓶颈的主要原因之一。此外，长程时间上下文与图像帧外观本身之间的交互对于判别异常视频帧至关重要。现有方法通过收集一小范围的相邻视频帧作为输入来进行这种交互，但由于短范围的时间上下文涉及不一致的时间上下文信息（Yu et al. 2020; Pang et al. 2020; Ionescu et al. 2017; Giorno, Bagnell, and Hebert 2016; Wang et al. 2018），它们缺乏充分利用视频活动中长程时间上下文的能力。

根据上述分析，我们提出了一种新的基于两阶段因果推断的流程，旨在消除噪声伪标签的影响并融入长程时间上下文。具体来说，在第一阶段，我们进行去混杂训练，保留有益的中介路径，同时去除后门路径，如图3所示。然后，我们进行基于反事实的模型集成，将第一阶段训练的模型预测与同一模型在输入替换为基于长程滑动窗口的上下文特征（同时保持中介变量 $M$ 不变）时的预测相加，如图4所示。需要注意的是，第二阶段不需要额外的训练，这意味着我们只需要进行两次推理就可以获得反事实模型集成预测，这种方式轻量级且无额外成本。整个流程如图5所示。

综上所述，本文有以下贡献：

据我们所知，我们首次从因果推断的角度研究了无监督视频异常检测中噪声伪标签的影响，并确定伪标签生成包含一种混杂效应，限制了性能的进一步提升。
我们引入了一个基于迭代两阶段因果推断的框架来消除噪声伪标签的影响。具体来说，我们采用因果干预进行去混杂训练，去除有害的后门因果路径，并使用训练好的模型进行基于反事实的长程时间上下文集成。
我们的方法明显优于所有先前的方法，在六个标准数据集上实现了新的最先进性能。

方法

问题公式化

一般设置

给定一组视频帧 $\mathbb{I}=\{I_{i}\}_{i = 1}^{K}$ ，其中 $K$ 是视频帧的总数，提取的特征集表示为 $X = \{x_{i}\}_{i = 1}^{K}$ ，其中 $x_{i} \in \mathbb{R}^{D_{b}}$ 。我们将整体噪声伪标签集定义为 $\cup N = \{l_{i} | l_{i} = c, c \in C = \{0, 1\}\}_{i = 1}^{K}$ ，其中伪异常标签集为 $A$ ，伪正常标签集为 $N$ ， $c$ 表示标签集，0表示正常事件，1表示异常事件。我们将UVAD任务公式化为：
$\mathcal{F}=\underset{\Theta}{arg min } \sum_{I \in \mathbb{I}} \mathcal{L}_{f o c}(\hat{y}=\phi(m=\varphi(x=f(I))), l) \tag{1}$
其中，我们旨在通过卷积神经网络学习一个异常检测器 $\mathcal{F}$ ，该网络由一个骨干网络 $f(\cdot ; \Theta_{b}): \mathbb{R}^{H ×W ×3} \mapsto \mathbb{R}^{D_{b}}$ （将输入视频帧 $I$ 转换为特征 $x$ ）、一个异常表示学习模块 $\varphi(\cdot ; \Theta_{a}): \mathbb{R}^{D_{b}} \mapsto \mathbb{R}^{D_{a}}$ （将 $x$ 转换为异常特定表示 $m$ ）和一个异常分数回归层 $\phi(\cdot ; \Theta_{s}): \mathbb{R}^{D_{s}} \mapsto \mathbb{R}$ （学习将 $m$ 预测为异常分数 $y$ ）组成。整体参数 $\Theta = \{\Theta_{b}, \Theta_{a}, \Theta_{s}\}$ 通过焦点损失（Lin et al. 2017） $L_{foc }$ 进行优化：
$\begin{gathered} \mathcal{L}_{f o c}(\hat{y}, l)=\alpha_{1} l(1-\sigma(\hat{y}))^{2} \log \sigma(\hat{y}) \\+\alpha_{2}(1 - l)\sigma(\hat{y})^{2} \log (1 - \sigma(\hat{y})) \end{gathered} \tag{2}$
其中 $\sigma(\cdot)$ 是标准的sigmoid函数， $\alpha_{1}$ 和 $\alpha_{2}$ 是超参数。

强基线模型

然后，我们按照（Pang et al. 2020）中的相同逻辑介绍强基线异常检测器 $\mathcal{F}$ 的训练。

第0轮：初始伪标签集生成：我们使用在ImageNet上预训练的ResNet - 50 CNN（He et al. 2016）作为 $f(\cdot)$ 来提取 $X$ 。然后，采用一种无监督算法为 $L_{0}$ 生成初始伪标签。确实，有许多算法可用于此任务，例如自动编码器网络（Wang et al. 2018）。然而，为了与（Pang et al. 2020）进行公平比较，我们采用隔离森林算法（Liu, Ting, and Zhou 2012）。它通过随机选择一个特征，然后在所选特征的最大值和最小值之间随机选择一个分割值来隔离异常事件。这相当于构建一个随机树森林，其中每个树节点的特征和分割点都是随机选择的。一个样本被隔离所需的分割次数等于从根节点到终止节点的路径长度。在这样的随机树森林中，路径长度的平均值是衡量正常程度的指标。具体来说，给定一个随机子集 $\subset X$ 和 $\in R$ ， $x$ 的异常分数定义为：
$z = PC A (x)$
$2^{−E(h(z)) / \tau(|R|)}$
$\tau(n)=2 Har(n - 1)-(2(n - 1) / n) \tag{3}$
其中 $PCA(\cdot)$ 是主成分分析函数，保留99%的解释方差量。 $h (z)$ 表示 $z$ 从根节点到叶节点遍历隔离树所经过的边数。 $E (h (z))$ 是来自一组隔离树的 $h (z)$ 的平均值。 $∣ R ∣$ 表示 $R$ 中的总样本数， $Har(\cdot)$ 是调和数， $\tau(\cdot)$ 是归一化项。
第1轮：使用 $L_{0}$ 进行学习：利用上一轮计算得到的 $L_{0}$ ，我们使用公式（1）进行学习，得到 $\mathcal{F}_{1}$ 。然后，我们使用 $\mathcal{F}_{1}$ 重新采样伪标签集 $L_{1}$ 。
第2轮到第T轮：自监督伪标签学习过程：通过迭代伪标签生成进行自训练，以逐步提高 $L$ 的质量。具体来说，使用训练好的 $\mathcal{F}_{t}$ 生成的新伪标签集 $L_{t}$ 用于训练新的 $\mathcal{F}_{t + 1}$ 。这个过程迭代 $T$ 轮，直到性能达到平稳。

无监督视频异常检测的因果推断视角

分析

在这里插入图片描述

我们提出如图1所示的因果图来分析上述 $\mathcal{F}$ 训练过程中的问题。在这里，我们简要介绍一下因果图的定义。图1中的因果图由六个感兴趣的变量组成：特征提取器（ $E$ ）、噪声伪标签特征（ $S$ ）、噪声伪标签（ $L$ ）、输入视频帧特征（ $X$ ）、异常特定特征表示（ $M$ ）和模型预测（ $Y$ ）。它主要包含两个部分：（1）通过链路 $\to S \to L$ 的伪标签生成部分，代表第0轮及后续轮次的伪标签生成；（2）模型训练部分，通过链路 $\to X$ （表示公式（1）中的 $x = f (I)$ ）、链路 $\to M \to Y$ （表示 $\hat{y}=\phi(m=\varphi(x=f(I)))$ ）和链路 $\to M \leftarrow X$ （表示 $L_{foc }(\hat{y}, l)$ ）。此外，链路 $\to Y$ 是我们期望实现的 $X$ 和 $Y$ 之间的直接因果效应。

正如上一节所讨论的，学习到的模型 $\mathcal{F}$ 的性能并不能暗示 $X$ 和 $Y$ 之间的直接因果效应，因为明显的后门路径 $\leftarrow E \to S \to L \to M \to Y$ 使 $X$ 和 $Y$ 产生虚假依赖。正确的伪标签通过 $\to M \to Y$ 帮助 $\mathcal{F}$ 学习更好的异常特定表示空间，而错误的伪标签则通过后门路径扭曲这个空间。因此，这为进一步提高性能提供了潜力。

通过因果干预进行去混杂训练

在这里插入图片描述

为了解决上述问题，我们提出一个干预后的因果图来解决伪标签生成过程的混杂偏差，如图3所示。调整后的因果图通过阻断因果链路 $\leftarrow E \to S \to L \to M \to Y$ 来阻断混杂路径，这使得伪标签生成过程与模型学习之间不会产生虚假相关性。因此，使用这个因果图进行学习可以产生 $X$ 和 $Y$ 之间的直接因果效应，表示为 $M)=\sum_{s} P(Y | X, M, S = s) P(s)$ 。这种技术称为后门调整（Pearl 2001），它相当于将总体划分为相对于 $S$ 同质的组，评估每个同质组中 $X$ 对 $Y$ 的影响，然后对结果进行平均。请注意，我们选择 $S$ 是因为它是唯一可行的可用于划分以进行后门调整的变量，而特征提取器 $E$ 和噪声伪标签 $L$ 难以进行划分。为此，我们将使用 $P (Y ∣ d o (X), M)$ 定义的学习模型记为 $\mathcal{F}^{*}$ ， $P (Y ∣ d o (X), M)$ 的实现为：
$\begin{aligned} P(Y=c | d o(X=x), M=m) & =\mathbb{E}_{s}\left[\sigma\left(\mathcal{F}^{*}(x, m, s)\right)\right] \\ & \approx \sigma\left(\mathbb{E}_{s}\left[\mathcal{F}^{*}(x, m, s)\right]\right) \end{aligned} \tag{4}$
其中 $\mathcal{F}^{*}$ 输出 $x$ 属于类别 $c$ 的无偏预测对数几率。由于 $\mathbb{E}_{s}[\cdot]$ 需要计算成本高昂的采样，因此我们进行公式（7）所示的近似。

基于反事实的长程时间上下文集成

在这里插入图片描述

借助上述经过去混杂训练得到的模型，我们通过在模型预测中融入长程时间上下文先验信息，进一步提升模型的能力。在视频异常检测（VAD）中，提取稳健的时间上下文对于判定异常事件至关重要。现有方法常常将时间上下文建模为一小段相邻视频帧，却忽略了长程时间上下文。不同的短程时间上下文表示可能差异巨大，且变化无常，这不利于获取稳健的时间上下文表示。相反，长程时间上下文表示更为稳定，并且随着视频播放变化较小。这种现象在图2中有所体现，我们绘制了随着相邻帧数增加时间上下文特征的变化情况：（1）最左边一列表示投影到二维图像平面的短程（0个相邻帧）时间上下文特征；（2）最右边一列展示了投影到二维图像平面的长程（1024个相邻帧）时间上下文特征。显然，短程时间上下文特征表示比长程对应特征的噪声更多，而长程时间上下文呈现出更平滑、更清晰的模式。为此，我们通过图4第二部分所示的反事实特征替换来对长程时间上下文进行建模。由于正常预测对数几率和长程时间上下文预测对数几率的大小不同，在将它们相加以进行模型集成之前，我们对来自 $\mathcal{F}^{*}$ 的正常预测和长程预测的预测对数几率进行归一化处理。最终类别c的异常预测分数 $O(\cdot)$ 定义如下：
$\begin{array}{r}O(Y = c)=\sigma\left(Norm\left(\mathbb{E}_{s}\left[\mathcal{F}^{*}(x, m, s)\right]\right)+\right.\\ \left.Norm\left(\mathbb{E}_{s}\left[\mathcal{F}^{*}\left(x_{a}, m, s\right)\right]\right)\right)\end{array}\tag{5}$
其中 $x_{a}=\frac{\sum_{i=-d}^{d} x_{i}}{2d}$ 是以x为中心、窗口大小为d的滑动窗口的平均特征， $Norm(logit)=\frac{logit - \mu}{\delta}$ ， $\mu$ 是所有帧的所有对数几率的平均值， $\delta$ 是所有帧的所有对数几率的标准差。

总体公式化

异常预测问题的总体公式定义为对 $O(\cdot)$ 分数的度量：
$\arg\max_{c \in \mathcal{C}} O(Y=c)\tag{6}$

去混杂训练

如前一小节所讨论的，我们建议使用后门调整来推导去混杂模型。关键思路是对变量E、S或L中的一个进行分层（干预），以阻断后门路径。然而，伪标签生成过程的分层可以通过对伪标签特征S进行分层来实现，因为L仅由E生成的特征集S决定，对L或E进行分层操作难度较大。因此，我们将S的分层定义为 $S = \{s_{i}\}_{i = 1}^{N_{s}}$ ，其中 $s_{i} \in \mathbb{R}^{D_{b}}$ ， $N_{s}$ 是表示混杂集S大小的超参数。由于实际中噪声伪标签特征的数量庞大，在实现过程中，我们利用带有 $PCA(\cdot)$ 的K-Means算法来学习混杂集s。因此，公式（4）的总体公式为：
$\begin{aligned}P(Y | do(X)) & =\sum_{s} P(Y | X=x, M=m, S=s) P(s) \\& \approx P\left(Y | X, m=\sum_{s} g(x=f(I), s) P(s)\right)\end{aligned}\tag{7}$
其中近似是通过归一化加权几何平均（Xu et al. 2015b）实现的（见补充文档）。阻断后门路径使得X有公平的机会将每个s纳入对Y的预测中，并受到先验P(s)的约束。 $g(\cdot)$ 定义如下：
$\begin{aligned}m & =g(x, S) P(S)=\sum_{s} g(x, s) P(s) \\& =\text{softmax}\left(\frac{\left(W_{1}x\right)^{T}\left(W_{2}S\right)}{\sqrt{D_{h}}}\right) S\end{aligned}$
其中 $P(s_{i})=\frac{|s_{i}|}{\sum_{j}|s_{j}|}$ ， $s_{i}|$ 是聚类 $s_{i}$ 中的样本数量， $W_{1}$ ， $W_{2} \in \mathbb{R}^{D_{h} ×D_{b}}$ 是可学习参数，用于将x和 $s_{i}$ 投影到联合空间。 $\sqrt{D_{h}}$ 是用于特征归一化的常数缩放因子。在实际实现中，为了更好地表示异常特定特征，我们进一步设置 $m^{\oplus}$ ，其中 $m^{\oplus}=\text{concat}(x, m)$ 。

最后，本节定义的模型 $\mathcal{F}^{*}$ 使用 $L_{foc }$ 进行训练。

反事实时间上下文集成

利用上一小节训练的模型 $\mathcal{F}^{*}$ ，我们旨在将长程时间上下文先验信息注入到模型预测中。给定一个输入视频帧(I)，公式（5）中的第一项是通过以 $x = f (I)$ 为输入进行正常推理得到的，因此 $m^{\oplus}=\text{concat}(x, m)$ 。公式（5）中的第二项通过反事实特征替换来实现。换句话说，我们设置 $m_{a}^{\oplus}=\text{concat}(x_{a}, m)$ ，随后是后期融合层。也就是将输入设置为以(I)为中心的滑动窗口的平均特征 $x_{a}$ ，同时保持其他所有内容不变。这种实现方式模拟了长程时间上下文 $x_{a}$ 和局部图像上下文 $m$ 之间的交互。通过这种解耦设计，第一项保持去混杂后的异常预测，第二项融入了长程时间上下文和局部图像上下文之间的交互。将它们相加类似于进行模型集成。公式（5）的实现定义为：
$\begin{array}{r}O(Y = c)=\sigma\left(Norm\left(\mathbb{E}_{s}\left[\mathcal{F}^{*}\left(x, m^{\oplus}, s\right)\right]\right)+\right.\\ \left.Norm\left(\mathbb{E}_{s}\left[\mathcal{F}^{*}\left(x_{a}, m_{a}^{\oplus}, s\right)\right]\right)\right)\end{array}$

自监督伪标签学习

至此，我们已经介绍了去混杂训练模块和基于反事实的长程时间上下文集成模块。遵循（Pang et al. 2020），我们采用与强基线相同的自监督伪标签学习设置。具体而言，在第0轮，我们使用上述隔离森林算法将伪标签L初始化为 $L_{0}$ 。混杂集S首先使用骨干网络 $f(\cdot)$ 初始化为 $S_{0}$ 。然后，在第1轮，我们进行去混杂训练以获得优化的模型参数 $\mathcal{F}_{1}^{*}$ ，接着通过反事实时间上下文集成模块将S更新为 $S_{1}$ ，将 $L_{0}$ 更新为 $L_{1}$ 。在第2轮及以后，这个自监督伪标签学习过程重复(T)轮。一般来说，虽然我们的框架属于自监督伪学习范式，但我们的贡献在于明确消除了伪标签生成过程引起的混杂偏差，并以反事实的方式融入了长程时间上下文先验信息。后续实验进一步表明，我们的模型性能显著超越了以前的最优方法。

实验

实现细节

训练和评估

由于在实际应用中异常事件较为罕见，如果仅使用这些数据集的测试集则不符合实际情况，因此遵循（Pang et al. 2020），我们将训练集和测试集合并构建完整的数据集。我们在采样的训练集上训练模型，并在完整数据集上评估模型，评估时仅使用真实标签。为了获得可靠的训练伪标签，我们通过保留异常分数排名前(a%)的帧作为异常帧来构建伪异常标签集(A)，并根据异常分数选择最正常的(b%)的帧来构建伪正常标签集(N)。(a)和(b)通常分别设置为5和20。这两个截止阈值是默认设置，因为它们在具有不同异常率的数据集上始终能显著提升性能。将(b)设置为较高的值通常有助于获得高质量的(N)，因为在现实世界的数据集中正常帧占主导地位。更多实现细节请参考补充文档。

评估数据集和指标

我们在四个基准数据集上评估我们的方法，即UCSD数据集（Mahadevan et al. 2010）、地铁监控数据集（Adam et al. 2008）、UMN数据集（Mehran, Oyama, and Shah 2009）和Avenue数据集（Lu, Shi, and Jia 2013）。遵循（Sugiyama and Borgwardt 2013; Giorno, Bagnell, and Hebert 2016; Ionescu et al. 2017; Luo, Liu, and Gao 2017; Sultani, Chen, and Shah 2018; Wang et al. 2018; Liu, W. Luo, and Gao 2018; Pang et al. 2020），我们使用ROC曲线和相应的曲线下面积（AUC）作为评估指标，该指标是根据帧级别的真实注释计算得出的。更多数据集的详细信息，请参考补充文档。

消融研究

我们开展了广泛的实验，从以下几个方面验证我们模型的有效性：（1）组件有效性；（2）反事实集成的变体；（3）损失函数设计；（4）骨干网络的稳健性；（5）超参数调整。为了进行公平比较，我们选择由ResNet - 50作为(f(\cdot))，两个连续的FC - BN - ReLU作为(\varphi(\cdot))，后跟一个单独的FC作为(\phi(\cdot))的基线模型进行所有实验。在（4）中，我们进一步测试C3D（Tran et al. 2015）、I3D（Carreira and Zisserman 2017，仅以RGB图像作为输入）和VGG（Simonyan and Zisserman 2015）作为(f(\cdot))。所有实验都在具有挑战性的UCSD数据集上进行，并采用自监督伪标签学习。我们将UCSD数据集的默认设置设为：(N_{s}=16)，(d = 1024)，((a %, b %)=(5 %, 20 %))，以平衡计算成本和性能。每次通过改变一个参数进行消融实验。

组件有效性：根据表2，我们进行实验1、2、3以验证每个提出组件的有效性。实验1是提出的强基线模型。通过实验2、3，仅添加去混杂因果流分解（DCFD）训练，在UCSD Ped1数据集上比强基线模型性能提高了3.2%，在Ped2数据集上提高了16.7%。同时添加DCFD训练和反事实时间上下文集成（CTCE）后，在UCSD Ped1和Ped2数据集上，该模型比仅使用DCFD训练的模型分别进一步提高了11%和1.5%。
反事实集成的变体：我们进行表2中的实验3、4、5以验证CTCE的设计选择。具体来说，我们构建了两个变体：（1）CTCE V1：对(X)对(Y)的总体影响，不对中介变量(M)进行进一步的反事实干预。我们放弃反事实特征替换设计，将模型输入设置为(x_{a})。公式（5）中的中介变量(M)不再是固定值，而是根据(x_{a})实时计算。（2）CTCE V2：将滑动窗口平均特征设计改为零特征设计，即不使用滑动窗口。我们进一步通过将(x_{a})替换为(x_{0} \in \mathbb{R}^{D_{b}})（一个零特征向量）来验证使用(x_{a})作为反事实输入的效果。结果表明，使用(x_{a})进行反事实特征替换的效果最好，显示了我们设计的优越性。
损失函数设计：我们使用另外两种损失函数，均方误差损失(L_{mse })和二元交叉熵损失(L_{bce })，来验证使用焦点损失(L_{foc })的有效性。表2中实验3、6、7的性能表明，焦点损失会自动惩罚学习良好的样本，并专注于难以学习的样本，在这三种损失函数中性能最佳。
骨干网络的稳健性：表2中的实验3、8、9、10表明，随着使用更先进的骨干网络，我们方法的性能会提高，这表明我们的方法不依赖于对(f(\cdot))的精心选择。
超参数调整：一般来说，我们模型中有四种类型的超参数：（1）构建伪标签集时的(a%)和(b %)；（2）混杂集(s)的大小(N_{s})；（3）滑动窗口大小(d)；（4）训练轮数(T)。与VAD中的大多数工作一样，我们报告所有超参数设置的评估结果。对于（1），根据表3，我们在实验1、2、3、4、5中将异常与正常样本的采样比例设置为1 : 2、1 : 3、1 : 4、1 : 5、1 : 6，评估结果表明，将比例设置为较小的值会产生更好的性能，因为现实世界中的异常事件很少见。对于（2），为了确定混杂集(N_{s})的大小，我们在实验6、7、8、9中将(N_{s})设置为4、16、64和128，结果表明混杂集(S)的粒度很重要。将(N_{s})设置为能够很好地表示训练数据中(X)分布的值有利于去混杂训练。对于（3），我们将窗口大小从短程值设置为长程值，结果表明较大的窗口大小始终优于较小的窗口大小，这表明长程时间上下文对于稳健的上下文表示至关重要。对于（4），我们绘制图6中的AUC性能以显示自监督伪标签学习过程的总体趋势。具体来说，结果表明AUC在(t = 0 - 8)之间逐渐提高，通常在(t = 8)时达到平稳。我们将(T = 8)以平衡计算成本和性能。此外，从初始化到第1轮的学习过程代表了从传统无监督方法到深度神经网络模型的学习。性能的急剧提升揭示了一个事实，即深度神经网络倾向于先学习简单模式，然后再拟合伪标签噪声，正如（Li, Socher, and Hoi 2020; Arpit et al. 2017）所证明的那样。从第2轮开始，学习过程转变为表示细化过程，因为我们的模型是在前一轮训练的模型基础上进行微调，导致性能提升不那么明显。

与先前最先进结果的比较

定量结果

根据表1，我们在四个标准基准数据集上，将我们的方法与16种在训练中需要已标注正常数据的VAD方法，以及7种不需要任何形式已标注数据的UVAD方法进行比较。我们展示了五种不同配置的模型：（1）实验22中使用从ResNet - 50提取的图像特征的隔离森林（iForest），作为简单基线；（2）强基线模型 $\mathcal{F}$ ， $f(\cdot)$ 设置为ResNet - 50，除了训练损失替换为 $L_{foc }$ 之外，几乎与（Pang et al. 2020）相同；（3）Ours(ResNet - 50) + DCFD，与（2）的不同之处在于添加了去混杂训练模块；（4）Ours(ResNet - 50) + DCFD + CTCE，与（3）的不同之处在于添加了反事实时间上下文集成模块；（5）Ours(I3D) + DCFD + CTCE，与（4）的不同之处在于将 $f(\cdot)$ 更改为I3D。总体而言，我们的方法显著优于所有先前的UVAD方法，甚至比一些VAD方法的性能还要高。具体来说，我们分别分析每个数据集上的性能提升。UCSD：我们的方法显著超越了所有先前的UVAD方法，与表现最好的模型（Wang et al. 2018）相比，在Ped1数据集上高出7.1%，在Ped2数据集上高出3.0%（通过比较实验25和20）。对于VAD，我们的方法在Ped2数据集上优于所有VAD方法，在Ped1数据集上也达到了较高的排名，展示了我们方法的竞争力。地铁监控数据集：我们的结果在入口和出口基准测试中均超越了所有先前的UVAD方法。UMN：显然，我们方法的性能高于所有先前的UVAD方法，并且与有监督方法相比也具有竞争力。具体而言，我们在所有场景中达到了100%（比（Pang et al. 2020）高出2.6%）。Avenue：通过比较实验26和20，我们的方法比先前的UVAD最优方法（Wang et al. 2018）高出5%。该性能也高于大多数VAD方法，排名第二。

定性结果

图7展示了我们模型在4个示例基准数据集上的定性结果。与隔离森林基线相比，很明显我们提出的方法在事件异常时能够产生更好的异常分数。大量实验表明，我们的方法可以逐步提高伪标签质量（通过正确的正常/异常帧数除以总正常/异常帧数来计算），如图8所示。

结论

我们从因果推断的角度分析了无监督视频异常检测中噪声伪标签和长程时间上下文的影响。然后，我们提出了去混杂训练和反事实时间上下文集成，以增强无监督视频异常检测中常用的自监督伪标签学习过程。整体框架简单，计算量小，并且对噪声伪标签具有鲁棒性。我们广泛验证了所提出流程的有效性，六个基准数据集上的实验结果表明，我们的方法显著优于所有先前的方法，展示了我们方法的优越性。尽管如此，设计更好的因果图或特征解耦方法可能会进一步提高模型在无监督视频异常检测中的性能。