【视频异常检测】Unbiased Multiple Instance Learning for Weakly Supervised Video Anomaly Detection 论文阅读

何大春

已于 2024-07-04 16:16:36 修改

阅读量991

点赞数 26

分类专栏：论文阅读文章标签：论文阅读音视频计算机视觉深度学习 python

于 2024-04-01 19:29:31 首次发布

本文链接：https://blog.csdn.net/weixin_44609958/article/details/137210219

版权

论文阅读专栏收录该内容

107 篇文章 11 订阅

订阅专栏

Unbiased Multiple Instance Learning for Weakly Supervised Video Anomaly Detection 论文阅读

Abstract
1. Introduction
2. Related Work
3. Method
4. Experiments
5. Conclusion
阅读总结

文章信息：
在这里插入图片描述
发表于：CVPR 2023
原文链接：https://arxiv.org/abs/2303.12369
源码：https://github.com/ktr-hubrt/UMIL

Abstract

弱监督视频异常检测（WSVAD）是具有挑战性的，因为异常的二进制标签仅在视频级别上给出，但输出需要针对片段级别的预测。因此，在WSVAD中，多实例学习（MIL）被广泛采用。然而，众所周知，MIL往往会产生许多错误警报，因为片段级别的检测器很容易受到简单上下文中异常片段的影响，会被具有相同偏见的正常片段所混淆，并且会错过具有不同模式的异常。为了解决这个问题，我们提出了一种新的MIL框架：Unbiased MIL（UMIL），旨在学习改善WSVAD的无偏异常特征。在每次MIL训练迭代中，我们使用当前的检测器将样本分为两组，这两组具有不同的上下文偏见：最有信心的异常/正常片段以及其余不明确的片段。然后，通过寻找两个样本组之间的不变特征，我们可以消除变化的上下文偏见。对UCF犯罪和TAD基准进行的广泛实验证明了我们UMIL的有效性。我们的代码可在https://github.com/ktr-hubrt/UMIL 上找到。

1. Introduction

视频异常检测（VAD）旨在检测视频序列中与预期不符的事件，广泛应用于智能制造[8]、TAD监控[9,22]和公共安全[25,30]等现实任务中。为了学习这样的检测器，传统的完全监督VAD[1]因为散乱但多样的异常需要极高的标注成本，因此并不实际。另一方面，无监督VAD[3,11,13,35,42]仅通过学习正常视频来检测开放式异常，往往会触发错误警报，因为仅仅通过正常视频而没有任何先验知识定义什么是正常和异常本质上是不合理的。因此，我们对一个更实际的设置感兴趣：弱监督VAD（WSVAD）[12,43]，其中只有视频级别的二进制标签（即正常与异常）可用。

在WSVAD中，每个视频序列被划分为多个片段。因此，在正常视频中所有片段都是正常的，而在异常视频中至少有一个片段包含异常。WSVAD的目标是使用视频级别的标签训练一个片段级别的异常检测器。主流方法是多实例学习（MIL）[22, 30]——多个实例指的是每个视频中的片段，学习是通过减少正常视频中每个片段的预测异常分数，以及仅增加异常视频中具有最大异常分数的片段的分数来进行的。例如，图1a显示了一个包含爆炸场景的异常视频，检测器通过MIL训练以增加最异常的爆炸片段的异常分数（绿色链接）。

然而，MIL很容易偏向视频中最简单的上下文捷径。我们在图1a中观察到，检测器对烟雾存在偏见，因为仅含有烟雾的爆炸前片段也被赋予了较大的异常分数（蓝色链接）。这种有偏的检测器可能会在没有异常的烟雾片段上触发误报，例如，一个冒烟的烟囱。此外，它还可能在具有不同上下文的多个异常视频中失败。在图1b中，视频记录了两个人对汽车进行破坏，其中只有第二个人有明显的运动。我们注意到它们的两个片段在异常分数上有很大的差异，只有后者被预测为异常。这表明检测器对剧烈运动背景存在偏见，而对细微的破坏行为，即真正的异常，不太敏感。

图1. 展示了爆炸和破坏两种异常情况。在每个视频序列中，我们使用红色方框突出显示地真实的异常区域，如第一行所示。下方描述了基于MIL模型的相应异常曲线。虚警和真实异常分别与蓝色箭头和绿色箭头连接到曲线上。最好在彩色环境中查看。

MIL的偏向预测根源在于其具有偏向的样本选择训练方案。如图2所示，左下角聚类区域（用红色椭圆表示）对应于自信的正常片段，例如，一个空旷的十字路口或者一个站在房间里的老人，它们要么来自于正常视频作为地面真相，要么来自于异常视频但在视觉上与地面真相相似。相反，右上角聚类区域表示自信的异常片段，它们不仅包含真正的异常特征（例如，爆炸和破坏），还包括在上下文偏差下通常与异常一起出现的上下文特征（例如，烟雾和运动）。在MIL中，训练好的检测器主要由自信的样本控制，对应于具有异常表示的右上角聚类区域和具有正常表示的左下角聚类区域。因此，学习到的检测器（红线）不可避免地捕获了自信样本中的上下文偏差。因此，偏见的检测器在具有不同上下文偏差的片段上产生了模糊的预测（红线错误地穿过蓝色点），例如，烟雾但正常（图2a中的工业排气），大幅运动但正常（图2b中的设备维护），或微妙运动但异常（图2c中的破坏后视镜），导致了前面提到的失败案例。

为此，我们旨在通过与自信的异常/正常和模糊的片段一起训练，构建一个无偏的MIL检测器。具体而言，在每次UMIL训练迭代中，我们使用当前检测器将片段分为两组：1）自信集，包含异常和正常片段；2）模糊集，包含其余片段，例如，图2中分别用红色圆圈和蓝色圆圈圈出了这两组。模糊集被分为两个无监督聚类（例如，由蓝线分隔的两个蓝色圈），以发现正常和异常片段之间的内在差异。然后，我们在两组之间寻找一个不变的二元分类器，将自信集中的异常/正常和模糊集中的两个聚类分开。所提出的不变性追求的基本原理是，模糊集中的片段必须与自信集具有不同的上下文偏差，否则，它们将被选入同一集合。因此，对于具有不同上下文但相同真实异常的情况，不变性追求将转向真实异常（例如，黑线）。

在这里插入图片描述

图2. 红色：自信集，蓝色：模糊集。 $\bullet$ ：正常样本，▲：异常样本，灰色实例：失败案例。红线表示在MIL下训练的分类器。不变分类器（黑线）可以通过将MIL中自信片段学习（红线）与模糊片段聚类（蓝线）相结合来学习。最好在彩色环境中查看。

总体而言，我们将我们的方法称为Unbiased MIL（UMIL）。我们的贡献总结如下：

UMIL是一种新的WSVAD方法，它通过在具有不同上下文偏差的置信和模糊片段中追求不变性来学习无偏异常检测器。
由于无偏目标的存在，UMIL是第一个将特征微调和检测器学习结合到端到端训练方案中的WSVAD方法。这导致了更加贴合VAD的特定特征表示。
UMIL配备了细粒度的视频分割策略，用于保留视频片段中的细微异常信息。
这些因素导致了在UCF-Crime [30]（1.4％AUC）和TAD [22]（3.3％AUC）基准测试中相较于当前最先进方法的性能提升。值得注意的是，与MIL基准相比，UMIL在这两个数据集上的AUC增益超过了2％，这证明了UMIL的有效性。

2. Related Work

视频异常检测的研究阵容分为两类：无监督和弱监督设置。

无监督方法包括仅使用未标记的训练数据或直接在测试数据上进行训练和测试的方法。Del等人[5]提出检测视频数据序列上的变化以侦测独特帧。Tudor等人[32]引入了迭代训练二元分类器来区分最具有判别性特征的非屏蔽技术[10]。最近，Zaheer等人[40]利用异常的低频性建立了生成器和鉴别器之间的交叉监督。还有一类单类别分类（OCC）方法假设仅有正常训练数据可用，并以无监督方式处理问题。通常，研究人员仅使用正常数据来拟合模型，然后通过区分偏离模型的事件来检测异常。早期的作品使用手工制作的外观和运动特征[2, 3, 18, 23, 24]。由于深度学习的显著进展，最近的工作使用了预训练深度神经网络的特征，并在其上构建了一个异常分类器[6, 27]。还有一些用于自监督特征学习的方法[28, 37]，其中一种常见的方法是通过时间预测[15, 20, 36]。然而，无监督方法在面对未见过的正常模式时容易产生误报，因为不可能在一个数据集中收集到所有类型的正常情况。

弱监督方法仅利用视频级别的弱标注数据，其中包括正常和异常的训练数据[30]。多实例学习（MIL）是主流范例，它利用视频级别的标签来训练片段级别的异常检测器[7, 30, 44]。通常，它们采用两阶段异常检测流水线，对预提取的特征进行异常检测。特别是，钟等人[43]将WSVAD任务视为在噪声标签下的监督学习，并设计了一种交替训练过程来增强动作分类器的区分能力。吕等人[22]专注于异常定位，并提出了高阶上下文模型以及基于边界的MIL损失。田等人[31]研究了特征幅度以促进异常检测，并选择了前k个得分来更好地表示用于MIL的视频实例。李等人[12]提出了多序列学习，其中在MIL学习中选择了具有高异常分数的连续片段。他们试图通过改进样本选择来改善MIL，但其偏倚性仍未改变。在本文中，我们的无偏MIL框架是第一个尝试在WSVAD中消除上下文偏差的工作[38, 39]。此外，我们将特征表示微调和异常检测器学习整合到端到端的训练方式中。

3. Method

在弱监督视频异常检测（WSVAD）中，每个训练视频都用二进制异常标签 $y\in \{ 0, 1\}$ （即正常或异常）进行注释，并被分成 $m$ 个片段。我们用 $\mathbf{x}_i,i\in\{1,\ldots,m\}$ 表示由参数 $\theta$ 参数化的骨干网络提取的视频中第 $i$ 个片段的特征。WSVAD的目标是训练一个片段级别的异常分类器 $f(\mathbf{x}_i)$ ，预测片段为正（异常）的概率。

在这里插入图片描述

图3. 提出的UMIL框架用于WSVAD，由主干网络 $\theta$ 、异常头 $f$ 和聚类头 $g$ 组成。我们使用 $f$ 的预测将片段分成自信集 $\mathcal{C}$ 和模糊集 $\mathcal{A}$ 。在MIL中，模型仅通过自信片段进行监督，以进一步增加异常预测的置信度（概率条上的黑色箭头）。在UMIL中， $f$ 还通过 $\mathcal{A}$ 进行额外监督，以分离由 $g$ 识别的两个簇，以消除 $\mathcal{C}$ 中的上下文偏差。在相似度条上的黑色箭头表示通过减少 $\mathcal{A}$ 中的BCE损失会降低对同一对的预测的点积相似度，因为它们来自不同的簇（ $y_1\neq y_2$ ）。

3.1. From MIL to Unbiased MIL

在WSVAD中，主流方法是多实例学习（MIL）。在MIL中，骨干网络 $\theta$ 预先训练（例如，在Kinetics400 [4]上）并在训练中冻结。它的目标是学习 $f$ ，以便将正常视频中最异常的片段（即， $y = 0$ ）预测为正常，将异常视频中最异常的片段（即， $y = 1$ ）预测为异常。具体来说，对于每个视频，MIL 创建一个包含 $f$ 对最异常片段的预测和视频异常标签的元组，即 $(\operatorname*{max}\{f(\mathbf{x}_{i})\}_{i=1}^{m},y)$ 。然后，MIL 对所有视频的元组进行聚合，构建一个标记的有信心的片段集 $C$ ，并通过最小化二元交叉熵（BCE）损失来训练 $f$ ：
在这里插入图片描述
其中， $\hat{y}=\max\{f(\mathbf{x}_i)\}_{i=1}^m$ 。需要注意的是，一些方法[30]使用均方误差损失，其实现与公式（1）的结果相同。通过这种方式，对于一个 $y = 0$ 的正常视频，通过最小化 $\max \{ f( \mathbf{x} _i) \} _i= 1^m$ ， $f$ 必须为所有片段分配较低的异常概率。对于一个 $y = 1$ 的异常视频，通过最大化 $\max\{f(\mathbf{x}_i)\}_{i=1}^m$ ， $f$ 被训练为对最有信心的异常片段输出更大的概率。然而，MIL 训练方案存在偏倚的样本选择：由于 $f$ 被训练为在异常视频中进一步增加 $\max\{f(\mathbf{x}_i)\}_{i=1}^m$ ，其余的模糊片段变得更不可能被 $\max$ 选择。因此，MIL 实质上丢弃了模糊的片段，仅在有信心的片段上进行训练，这导致了一个有偏的检测器（例如，见图2）。

相比之下，我们提出的Unbiased MIL（UMIL）利用了既有信心又有模糊的片段来训练异常分类器 $f$ 。具体而言，在步骤1中，我们将片段分为一个带标签的有信心片段集 $\mathcal{C}$ 和一个未标记的模糊片段集 $\mathcal{A}$ 。在步骤2中，我们以无监督的方式将 $\mathcal{A}$ 聚类成两组，以区分正常和异常的片段。最后，在步骤3中， $f$ 同时由 $\mathcal{C}$ 和 $\mathcal{A}$ 监督，以预测 $\mathcal{C}$ 中的二进制标签并将 $\mathcal{A}$ 中的簇分开。

3.2. Step 1: Divide Snippets

根据 $f$ 的预测结果，我们将片段分为自信集 $\mathcal{C}$ 和模糊集 $\mathcal{A}$ ：

构建 $\mathcal{C}$ 。在训练过程中，我们跟踪每个片段的 $f$ 的最近5次预测历史。然后，在每个epoch开始时，我们选择具有最小预测方差的 $N$ 个片段 $\mathbf{x}_1,\ldots,\mathbf{x}_N$ ，自信集 $C$ 由 $\{f(\mathbf{x}_{i}),y_{i}\}_{i=1}^{N}$ 给出。其理论基础是对于明显的正常或异常片段（例如，在图 $\color{red}{2}$ 中用红色标记），它们的预测往往会随着时间的推移迅速收敛到具有小预测方差的自信正常或异常。这种方法在附录中经验验证，我们指出类似的方法在[43]中显示出有希望的结果。

构建 $\mathcal{A}$ 。其余的 $M$ 个片段具有较大的预测波动，表明 $f$ 对它们仍然不确定。它们被收集为模糊集 $\mathcal{A}=\{\mathbf{x}_i\}_{i=1}^M$ 。需要注意的是， $A$ 在这一点上是一组特征，等待下一步的聚类。

3.3. Step 2: Clustering Ambiguous Snippets

虽然 $f$ 对 $\mathcal{A}$ 的预测是模糊的，但特征分布仍然可以反映正常和异常片段之间的内在差异。因此，我们的目标是将 $\mathcal{A}$ 聚类成两组以区分它们。具体而言，我们学习一个聚类头 $g$ ，它将片段特征 $\mathrm{x\in \mathcal{A}}$ 作为输入，并输出每个聚类的softmax归一化概率。
头 $g$ 以成对的方式进行训练，使得相似特征对应的 $g$ 的预测相似(即来自同一聚类)，而不同的特征对应的预测则相反。为了实现这一目标，我们将基于 $g$ 的聚类预测的成对形式定义为：
在这里插入图片描述
这里使用点积来衡量预测的相似性， $\mathbb{1}(\cdot)$ 是一个指示函数，如果 $\mathrm{x}_i$ 和 $\mathrm{x}_j$ 之间的余弦相似度大于阈值 $\tau$ （即 $\mathbf{x}_i\sim\mathbf{x}_j$ ），则返回1，否则返回0。这样可以通过最小化 $BCE(\mathcal{A}_g)$ 来训练 $g$ 。

经过优化的g，将 $\mathcal{A}$ 中的每个特征 $\mathbf{x}_i$ 分配一个聚类标签 $y_i = \text{argmax} \: g(\mathbf{x}_i)$ ，即具有最高预测概率的聚类。接下来，我们通过 $\mathcal{A}$ 对 $f$ 进行监督，以分离这些聚类并形成我们的总体目标。

3.4. Step 3: Overall Objective

需要注意的是，与 $C$ 中的标签提供的样本级别监督不同，即一个特征是正常还是异常不同， $\mathcal{A}$ 中的聚类标签只提供了成对的监督，即一个特征对是否来自同一聚类。因此，我们使用成对损失对 $f$ 进行 $\mathcal{A}$ 的监督： $f$ 被训练为在具有相同聚类标签的特征对上产生类似的异常预测，并推开那些来自不同聚类的特征对的预测。这对应于基于 $f$ 的成对预测相似性的BCE $\mathcal{A}_f)$ 的最小化。
在这里插入图片描述
其中， $f(\mathbf{x}_i)^\intercal f(\mathbf{x}_j)$ 表示二进制概率（即正常或异常）的点积相似性。UMIL的整体目标给出如下：

在这里插入图片描述
因此，除了像MIL中的 $C$ 提供的监督外，UMIL中的 $f$ 还通过 $\mathcal{A}$ 受到额外的监督，以分离由 $g$ 确定的其2个簇，从而消除 $C$ 中的上下文偏差（见图2）。这种无偏目标使我们不仅可以训练 $f$ ，还可以微调主干网络 $θ$ ，以获得一个定制的表示用于VAD。

训练和测试。在训练之前，首先使用MIL对背景θ进行预训练，并且f、g被随机初始化。然后使用我们提出的UMIL通过迭代算法1直到收敛来训练模型。在测试中，异常在帧级别进行标记。模型使用非重叠滑动窗口的帧（即每个帧窗口是一个片段）进行评估，以便在窗口与任何异常帧相交时预测异常。
在这里插入图片描述

4. Experiments

在这里插入图片描述

5. Conclusion

在这项工作中，我们提出了一种无偏的多实例学习（UMIL）方案，用于学习无偏的异常分类器和针对弱监督视频异常检测（WSVAD）定制的表示。具体而言，现有的多实例学习（MIL）训练方案存在上下文偏差，因为它只在包含明显正常/异常视频片段的自信集上进行训练。我们将其替换为一种无偏的方案——寻找不变的预测器，同时区分自信集中的正常/异常片段，并将其余模糊片段中的两个无监督聚类分开。因此，消除了在模糊片段中失败的上下文偏差。我们的方法通过在标准的WSVAD基准上进行了最新性能和广泛的消融实验来进行了实证验证。在未来，我们将寻求超出无监督聚类的额外先验知识，以发现模糊的正常和异常片段之间的内在差异，并采用基于原则的表示学习范式（例如，解耦）来突出异常特征。