Look Around for Anomalies:Weakly-supervised Anomaly Detection via Context-Motion Relational Learning

七77.

已于 2024-09-28 12:18:50 修改

阅读量768

点赞数 25

文章标签：深度学习人工智能

于 2024-09-27 22:23:44 首次发布

本文链接：https://blog.csdn.net/weixin_46687145/article/details/142597698

版权

在这里插入图片描述

标题：环顾四周寻找异常：基于上下文-运动关系学习的弱监督异常检测
原文连接：
Look Around for Anomalies:Weakly-supervised Anomaly Detection via Context-Motion Relational Learning
无源码
发表：CVPR-2023

Abstract

弱监督视频异常检测的任务是使用视频级别的标注训练数据来检测帧级别的异常。利用最少的弱标签监督和单一主干分支来探索具有代表性的类别特征是非常困难的。此外，在现实世界场景中，正常与异常之间的界限往往是模糊且会根据具体情况而变化的。例如，即使是同一个人跑步的动作，其是否异常也会因其周围环境是操场还是道路而有所不同。因此，我们的目标是通过加宽单一分支内类别特征之间的相对差距来提取区分性特征。在所提出的类激活特征学习（Class-Activate Feature Learning, CLAV）方法中，特征是根据隐式激活的权重进行提取的，这些权重取决于类别，然后通过相对距离学习进一步扩大特征间的差距。此外，为了在复杂多样的场景中识别异常，上下文与运动之间的关系非常重要，我们提出了一个上下文-运动相互关系模块（Context–Motion Interrelation Module, CoMo），该模块建模了周围环境外观与运动之间的关系，而不仅仅是利用时间依赖性或运动信息。所提出的方法在包括大规模真实世界数据集在内的四个基准上展示了最先进的性能，并且我们通过分析定性结果和泛化能力证明了关系信息的重要性。

1. Introduction

视频异常检测（VAD）在监控系统中指的是从正常情况的时间间隔中识别未定义的、不寻常的或前所未见的异常事件（如交通事故、抢劫等不可预见的事件）。目前，安装在银行、街道和建筑物等公共场所的众多闭路电视摄像头记录了我们的日常生活，并在公共安全方面发挥着重要作用。然而，由于人工从PB级别的监控视频中定位异常或持续监控既耗时又费力，因此提供自动且即时响应的VAD任务成为了深度学习领域的一个热门话题[5, 26]。

弱监督视频异常检测（WVAD）通过仅标注每段视频剪辑是否包含异常事件的视频级别标签来利用关于异常事件的最少知识。WVAD面临几个挑战。首先，网络很难通过弱标注训练数据学会在帧级别分类异常。因此，大多数WVAD方法[13, 20, 31, 35]采用基于多实例学习（MIL）的方法。当正常的和异常的视频片段被划分为多个小片段，并且每个小片段分别包含在负样本袋和正样本袋中时，至少有一个异常的小片段存在于正样本袋中。因此，MIL方法假设正样本袋中的最高异常得分来自于异常小片段，并强制其为1，而负样本袋中的最高得分设为0。但是，鉴于 1）现实世界中正常与异常之间的界限是模糊的，回归学习强制将片段预测分数归一到固定值存在局限性。田等人[33]和吴等人[37]分别通过扩大特征幅度和调整特征与中心特征的距离来通过特征学习强制类别间的差距。然而，2）从单分支模型中提取特征差异以扩大差距是很困难的（如图7所示）。另一个以往研究忽略的挑战性问题是，在现实场景中，对于复杂多样的场景，“异常事件”的定义可能根据上下文和运动关系不同。朱等人[47]仅利用光流数据提取外观不变特征，专注于移动部分，而[24, 33, 42]则侧重于时间依赖性，考虑多尺度时间信息。然而，3）只关注运动或时间信息，甚至排除外观信息会导致对复杂场景理解的不完整。

在复杂的场景中，正常与异常之间的界限是模糊的，有时这种区别会因具体情况而异。也就是说，与其对异常类有固定的明确先验，不如相对比较每个类来隐式地学习具有代表性的类别特征。此外，现实世界中发生的异常事件取决于上下文和运动之间的关系。例如，在图1中，(d)篮球比赛中发生的肢体冲突是一个正常且可接受的事件；但(e)街头的斗殴则是一个异常事件。因此，同一动作根据不同的情境-运动关系可以有不同的分类。因此，我们的动机是通过考虑类别之间的相对边界来提取类别激活的特征，并理解上下文和运动信息之间的相互关系。
图1. 所提方法的概念。我们提取的区分性特征 (a) 根据正常或异常类别被激活，并且 (b) 通过相对距离学习扩大它们之间的差距。此外，通过将特征投影到交互空间中，我们 (c) 探索场景上下文信息和运动信息之间的关系。为了检测异常，所提出的方法不仅考虑了运动，还考虑了它与上下文的关系。例如，(d) 显示的是篮球比赛中的一段包含肢体冲突的正常视频，而 (e) 则展示了一段异常的斗殴视频。红色高亮范围是真实异常帧，我们的方法（红线）能够准确地检测出异常，而没有误报。

图1. 所提方法的概念。我们提取的区分性特征 (a) 根据正常或异常类别被激活，并且 (b) 通过相对距离学习扩大它们之间的差距。此外，通过将特征投影到交互空间中，我们 © 探索场景上下文信息和运动信息之间的关系。为了检测异常，所提出的方法不仅考虑了运动，还考虑了它与上下文的关系。例如，(d) 显示的是篮球比赛中的一段包含肢体冲突的正常视频，而 (e) 则展示了一段异常的斗殴视频。红色高亮范围是真实异常帧，我们的方法（红线）能够准确地检测出异常，而没有误报。

为了克服上述挑战，我们提出了一种距离学习方法，它通过1）相对特征距离而非诸如幅度或得分这样的单独值来调整正常与异常之间的间隔。这基于正常样本内部方差调整困难阴性正常样本与异常样本之间的相对距离。另外，2）提出了带有附加隐式类别激活（ICA）模块的类别激活特征学习（CLAV），该模块隐式地从单一分支为每个类别激活代表性特征，并使用类特定（CS）损失函数作为辅助任务来探索每个正常或异常模式。此外，我们在WVAD中首次强调了静态与动态信息之间关系的重要性，并提出了3）一个上下文-运动相互关系模块（CoMo），该模块具有聚焦于场景中运动和外观的动态路径和上下文路径，用于建模这两种信息之间的关系。然后，每个特征从时间空间投影到交互空间，并通过图卷积模块进行相关传播。

如图1所示，(a) CLAV特征通过(b)距离学习扩大了差距，并通过© CoMo探索了关系信息，在(d)篮球比赛场景中有肢体冲突的情况下没有误报，并在(e)打架的异常场景中显示了准确的时间定位。我们在包括大规模真实世界数据集UCF-Crimes [31]和XD-Violence [38]在内的四个弱标注基准上评估并讨论了所提方法的有效性，并展示了SOTA结果。

2. Related Works

弱监督视频异常检测。由于在现实世界中异常数据稀少，难以获取和标注用于训练，许多研究采用无监督的方式进行，使用重构自编码器[1, 12, 14, 28, 46]和帧预测网络[22, 32]通过大量无标签的正常视频组成的训练集来建模正常模式，并通过分布外方法估计异常区域。虽然这种方法具有易于获取数据且无需标注成本的优点，但它会将除了训练数据之外的模式识别为异常，从而导致高误报率以及对正常训练数据的严重偏差。为了解决这个问题，使用弱标签训练数据（视频级别标注正常或异常）的WVAD方法旨在通过最小限度地监督异常事件来区分正常与异常，以避免对先验信息的过拟合。WVAD方法[9, 19, 30, 31, 43, 45]相比标注成本展示了显著的性能提升。Zhong等人[45]提出了一种基于特征相似性和时间一致性的标签校正方法，该方法从高置信度视频片段向低置信度片段传播监督信号。Zhang等人[41]提出了一个针对未见模式的鲁棒方法，学习如何确定未见开放数据。Sapkota等人[30]使用动态非参数分层聚类技术有效地组合了时间上和语义上相似的段落。

WVAD中的MIL基础方法。许多WVAD研究[31, 33, 35, 37, 44]尝试基于MIL框架检测异常。最大分数基MIL方法[31]通过最大化两类之间的最高得分差距显示了有希望的结果。此外，提出了分数距离学习方法[35, 44]，这些方法利用最高的和最低的异常得分来减少类内差异并扩大类间差异。尽管这些方法展示了值得注意的表现，但MIL方法仍然存在仅依赖少数或单一最高片段进行学习以及仅依靠回归输出而没有基于特征决策的局限性。对于特征学习，Tian等人[33]扩大了类别间的特征幅度值，Wu等人[37]通过中心特征调整特征距离。然而，通过单分支骨干网很难用弱标签扩大特征差距。

WVAD中的特征聚合。现有WVAD方法[3, 24, 43, 47]的特征提取过程主要集中在运动、时间关系和时间依赖性的信息上。Li等人[19]使用多个视频实例序列作为单位以考虑时间关系。Wu等人[37]通过捕捉视频片段之间的时间线索开发了MIL方法，Zhang等人[42]专注于多尺度时间依赖性。然而，这些方法忽略了周围环境与运动之间的关系，而这在现实场景中是至关重要的。

3. Proposed Methods

Overview. 在弱监督视频异常检测（WVAD）中，用于帧级别异常事件检测的训练数据包括带有视频级别标签 $Y = \{0, 1\}$ 的正常片段 $V_n$ 和异常片段 $V_a$ 。在训练过程中，每个正常和异常输入片段被分割成 $T$ 个片段，这些片段分别包含在负样本袋和正样本袋中。如图2所示，首先，输入片段通过一个预训练的骨干网络转换为专注于时间依赖性和运动信息的骨干特征 $B$ ，然后通过隐式类别激活（ICA）执行CLAV以创建通过CS特征学习得到的类别代表性特征 $F$ 。为了考虑复杂的现实世界场景， $F$ 通过CoMo得到关注上下文与运动信息之间相互关系的关系特征 $F_R$ 。在CoMo模块中，通过动态路径预测片段的运动信息，选择具有低运动强度的静态特征，并通过上下文路径传递以提取包含上下文信息的 $F_{cont}$ 。之后，为了考虑上下文特征 $F_{cont}$ 与包含运动信息的类别代表性特征 F之间的相互关系，特征被投影到交互空间中，并通过基于图的推理网络传播关系来输出最终的关系特征 $F_R$ 。每个特征F和 $F_R$ 使用提出的相对距离损失调整类间和类内差距，而特征预测的得分 S和 $S_R$ 则使用top-K MIL损失进行训练。
在这里插入图片描述

图2. 总体提出的框架。弱标签训练视频被分割成片段并输入到骨干网络中。在(1) CLAV（类别激活特征学习）中，来自ICA（隐式类别激活模块）的特征 $F$ 通过全连接层用于预测异常得分 $S$ ，并通过CSA（类别特定激活）和CSN（类别特定负样本）进行类别特定的辅助学习。 $F$ 通过(2) 相对距离学习进行调整，并输入到(3) CoMo（上下文-运动相互关系模块）以生成关系特征 $F_R$ 和关系得分 $S_R$ 。

3.1. 类别激活特征学习（Class-Activate Feature Learning, CLAV）

3.1.1 隐式类别激活（Implicit class-activate, ICA）模块

为了通过弱标签在所有片段中找到异常事件，学习正常/异常类别的判别特性非常重要。类似于先前的方法[9, 19, 30, 31]，我们通过预训练在大规模动作识别数据集上的骨干网络来提取每个片段的特征。因此，骨干特征B包含了运动信息，但很难捕捉到具有代表性的正常和异常信息。此外，单个骨干网络提取的特征在区分不同类别方面存在局限性，并且难以以类别特定的方式明确地将网络划分为两个流。因此，受到[39]的启发，该方法通过根据领域差异激活权重来进行有效的跨域面部识别，我们提出了隐式类别激活模块，使得正常和异常片段的特征有所区别。

通过骨干网络传递的 T 个片段成为D 维特征 $\in \mathbb{R}^{T \times D}$ ，并输入到按时间操作的ICA模块。如公式(1)所示，B的通道数被扩展为类别的数量，从而成为 $\hat{B} \in \mathbb{R}^{T \times 2D}$ ，其中 $f_{\text{ICA}}$ 是带有参数 $\varphi$ 的ICA模块，而 $\hat{B} = \{\hat{b}_1, \hat{b}_2, \ldots, \hat{b}_T\}$ 。然后，在公式(2)中，每个特征向量 $\hat{b}_i$ 的通道被分成 $\hat{b}_{1i}$ 和 $\hat{b}_{2i}$ $用于最大激活。

在公式(3)中，通过最大操作，类别代表性信息从骨干特征 B中被隐式聚合，当 $\hat{b}^d_{1i} \geq \hat{b}^d_{2i}$ 时，只有激活元素的权重会被传播到梯度 $\frac{\partial f^d_i}{\partial \hat{b}^d_{1i}}$ ,否则是 $\frac{\partial f^d_i}{\partial \hat{b}^d_{2i}}$ 。

这种根据个别类别的特定特征进行激活的方式显示出了强大的效果，仅用一个Conv1D层的简单配置即可实现。此外，当ICA模块添加到另一个VAD网络上时（见第4.3节），它带来了显著的性能提升，这表明ICA在从骨干特征中区分不同类别方面是有效的。首次提出了一种适合于单骨干网络的VAD的差异特征提取方法。从ICA模块中，我们分别获得正常或异常输入片段的 $F_n = \{f^n_1, \ldots, f^n_T\}$ 或 $F_a$ 。更多细节请参阅补充材料。

3.1.2 类别特定（Class-Specific, CS）学习

由ICA模块隐式激活的特征 $F$ （ $F_n, F_a$ ）通过全连接层（FC layers），并预测异常得分 $S$ （ $S_n, S_a \in \mathbb{R}^T$ ）。在特征提取过程中，我们提出了一种类别特定的损失函数 $L_{cs}$ ，以使每个类别的特征表示为相似的模式。无监督VAD中使用的基于重构的方法[6, 8, 10, 17, 25, 27]通过编码-解码过程重构由单一类别（正常类别）组成的数据，并通过最小化输入数据与重构输出数据之间的差异来学习训练数据的模式或分布。利用这种方法，如图2所示，我们提出了CS模块，即CSN和CSA，用于使用由全连接层FC1和FC2编码的d维（d=128）嵌入特征 $F_{FC2}$ 重构D维特征 $F$ 。

只有对应于异常得分 $S$ 的前K个索引的正常和异常特征被输入到相应的CS模块：对于CSN是 $\{f^n_{FC2,i}\}_{i=topk}$ ，对于CSA是 $\{f^a_{FC2,i}\}_{i=topk}$ ，每个模块分别用于单个类别的重构，生成 $\tilde{F}^n_{topk}$ 和 $\tilde{F}^a_{topk}$ 。在公式(4)中，类别特定损失 $L_{cs}$ 使用L1损失来最小化预测输出特征与类别判别特征 $F^{\text{topk}}_n = \{f^n_i\}_{i=topk}$ 和 $F^{\text{topk}}_a = \{f^a_i\}_{i=topk}$ 之间的差距，这迫使每个类别的特征包含可预测的代表性信息。这些带有 $L_{cs}$ 的CS模块是辅助分支，在测试阶段会被移除。

3.2. 相对距离学习

通过CLAV提取的特征F 来自同一个骨干网络，但被认为是为每个类别隐式激活的。由于正常和异常之间的边界是模糊且难以定义的，因此需要在考虑相对性的情况下进行学习。与以往方法中仅使用top-k片段进行训练不同，大多数正常片段被忽略，并且没有考虑正常与异常之间的相对差异，我们提出了一种距离学习方法，该方法根据整体正常性调整特征距离。

在公式(5)中， $F_n = \{f^n_1, \ldots, f^n_T\}$ ， $F_a = \{f^a_1, \ldots, f^a_T\}$ ，并且余弦相似度用 $\cos$ 表示，整体正常片段特征的相似度是 $C_n$ ，而top-K $F_n$ 和 $F_a$ 之间的相似度是 $C_{\text{top}}$ 。
在这里插入图片描述
在公式(6)中，基于所有正常特征的相似度 $C_n$ 而不是固定值，困难负样本（正常top-K片段）和正样本（异常top-K片段）之间的相对相似度 $C_{\text{top}}$ 减少；同时，根据公式(7)，正常特征的相似度 $C_n$ 增加。在图3中，(a) 简单地将得分回归到固定值0或1，(b) 增大特征的幅度值，© 基于中心特征调整每个类别的特征距离。然而，即使在©中中心特征和正常特征比异常特征更接近，仍然存在一些正常与异常之间距离较小的样本（绿色虚线圈）。相比之下，(d) 我们的相对距离学习使用所有正常片段来考虑正常感知的相对距离。
在这里插入图片描述

图3. 损失函数的示意图。(a) MMIL [31] 是基于多实例学习（MIL）的得分回归损失，(b) RTFM [33] 是特征幅度学习损失，© CTR [37] 和 (d) 我们的方法是特征距离学习损失。为了扩大类别间的差距，RTFM和CTR分别通过利用特征的幅度和中心来调整单个特征。我们的方法，即相对距离损失，旨在使正常特征 $C_n$ 之间的距离比困难负样本（正常）和正样本（异常） $C_{\text{top}}$ 之间的距离更小。

3.3. 上下文-运动相互关系（Context-Motion Interrelation, CoMo）模块

虽然先前的方法利用了专注于时间依赖性或运动信息的特征，我们提出了一种新颖的CoMo模块，该模块提取上下文信息，并探索上下文与运动之间的关系传播。以特征 $F$ 作为输入，最终的关系特征 $F_R \in \mathbb{R}^{T \times s_t}$ 和关系得分 $S_R \in \mathbb{R}^T$ 作为输出，CoMo通过将特征映射到对时间轴不变的交互空间来执行上下文与运动之间的关系建模。通过CoMo，我们确保不仅在性能上有所提升，而且关系信息对于泛化能力也是稳健的（第4.4节），这在实际应用中的视频异常检测中非常重要。

3.3.1 上下文和动态路径 (Context and dynamic path)

为了提取场景的上下文信息，我们首先通过动态路径估计运动信息，并使用这一预测来过滤具有相对低运动强度的特征。然后，在上下文路径中，我们关注静态场景及其周围环境，这些场景具有低运动强度。Conv1D(k, s, c) 表示一个一维卷积层，其中 k、s 和 c 分别是核大小、步幅和通道数。动态路径由 Conv1D(1, 1, 512)–Conv1D(1, 1, 1) 组成，运动强度得分 $S_{\text {int}} \in \mathbb{R}^T$ 成为输出。运动得分越高，表示场景越活跃，反之亦然（请参阅补充材料了解强度得分）。在公式(8)中，损失函数是在光流 [40] 强度 $I$ 和 $S_{\text{int}}$ 之间的L1损失，使动态路径输出运动信息的得分。

类似于通过知识蒸馏学习外观的方法[2, 11]，这些方法以物体或掩码预测作为代理任务，上下文路径通过关注外观而非运动来预测物体类别得分。对于代表外观的上下文特征，我们选择具有低运动强度的静态场景特征。因此， $\{F_i\}_{i=\text{bottom-N}}$ ，其中 $i$ 是运动强度得分 $S_{\text{int}}$ 的后N个索引，被输入到上下文路径。该路径包括 Conv1D(3, 1, D) 后接全连接层，并预测 N 个片段的C类物体得分 $S_{\text{obj}} \in \mathbb{R}^{N \times C}$ ，目的是探索场景中的外观。如公式(8)所示，上下文路径通过 $L_{\text{obj}}$ 进行训练，利用 MS COCO [21] 预训练的目标检测器 YOLOv5 [15] 预测片段内每个物体类别得分的均值 $\in \mathbb{R}^{N \times C}$ 作为伪标签。作为 $L_{\text{obj}}$ 的约束，从 Conv1D 层聚合的特征变得对场景的外观敏感，这些特征的平均值即为上下文特征 $F_{\text{cont}}$ ，如图2所示。两个损失函数之和 $L_{\text{aux}} = L_{\text{int}} + L_{\text{obj}}$ 用于辅助任务，而在测试期间预测物体类别得分的层将被移除。

3.3.2 图关系传播(Graph relation propagation)

在图4中，特征 $F$ 和 $F_{\text{cont}}$ 被嵌入到交互空间中，通过与时间一致性无关的关系信息来理解场景。 $F$ 和 $F_{\text{cont}}$ 分别被映射为 $n$ 个节点和 $s_t$ 个状态，形成 $V_{\text{cont}} \in \mathbb{R}^{n \times s_t}$ ，这是通过双投影矩阵 $P$ 完成的。然后，使用图卷积网络（GCNs）[7]，我们通过邻接矩阵 $A$ 传播表示每个节点间关系的边，并用权重矩阵 $W$ 更新状态。之后，两个经过关系传播的矩阵 $V^{'}$ 和 $V'_{\text{cont}}$ 按节点和状态进行连接和融合，以探索相互关系。关系信息 $R$ 通过投影矩阵 $P$ 重新投影回时间空间，并成为最终的关系特征 $F_R$ 为 $s_t$ 维。随后， $F_R$ 通过全连接层（FC layer）以获得关系异常得分 $S_R$ 。
在这里插入图片描述

图4. CoMo图模块的架构。通过投影矩阵 P，F 和 $F_{\text{cont}}$ 分别被映射到交互空间中的节点和状态矩阵。然后，通过对节点的关系传播和状态更新，探索上下文与运动之间的每种关系。最后，通过融合这两部分信息并重新投影回时间空间，得到关系信息 $R$ ，形成最终的关系特征 $F_R$ 。

3.4. 训练和测试阶段(Training and Testing Phase)

在这里插入图片描述
上述整体框架从视频级别的弱标签数据中学习。在公式(9)中， $L_{\text{mil}}$ 通过异常得分 $S$ 和关系异常得分 $S_R$ 的top-K得分集合 $\Omega_k(S)$ 和 $\Omega_k(S_R)$ 的交叉熵损失获得。在公式(10)中， $L_{\text{dist}}$ 表示 $L_{\text{dist}}(F) + L_{\text{dist}}(F_R)$ ，最终的损失函数是 $L$ 。我们使用与[31, 33]相同的时序平滑项（ $\sum_{i=1}^{T} (s_i - s_{i-1})^2$ ）【时序上相近的异常值变化应该平滑】和稀疏性正则化项（ $\frac{1}{T} \sum_{i=1}^{T} |s_i|$ ）【异常的帧应该占少数】。在训练阶段之后，异常得分为 $\lambda S_R$ ，并且CS分支和上下文路径中的全连接层将被移除。

4. Experimental Results

我们进行了实验，并在四个视频异常检测基准上分析了所提出的方法。UCF-Crimes [31] 和 XD-Violence (XD-Vio.) [38] 是大规模的弱监督视频异常检测（WVAD）数据集，包含带有视频级别标签的正常和异常训练数据；而ShanghaiTech (ST) [22] 和 CUHK Avenue (AV) [23] 是用于无监督VAD的数据集，其中训练集仅包含正常视频。根据先前的研究，我们使用接收者操作特征曲线下的面积（AUC）作为评价指标，对于XD-Vio.，我们使用平均精度（Average Precision）。

UCF-Crimes 是一个大规模的WVAD数据库，包含通过不同条件（如光照、分辨率和天气）获取的真实世界安全相关的未剪辑异常视频。训练集由800个正常视频和810个异常视频组成，测试集则由150个正常视频和140个异常视频组成。
XD-Violence 是最大的且最多样的数据集，包含4,754个未剪辑的体育、电影和监控视频。训练集和测试集分别有3,954和800个视频。
ShanghaiTech 包含437个视频，分布在13个场景中。为了适用于弱监督方法，我们将它们重新组织为238个训练视频和199个测试视频，每个集合都包含正常和异常视频。我们使用与[19, 33, 45]相同的划分。
CUHK Avenue 包含16个正常训练集和21个异常测试集，我们按照[30]的方式将其重新组织为80:20的正常和异常视频比例。

4.1 Implementations

我们从预训练于Kinetics [4] 数据集上的ResNet-50 I3D和Inception-v1 I3D [4] 的’mix 5c’层提取D=2048维或1024维的RGB特征。对于UCF-Crimes、XD-Vio.、ST和AV数据集，批量处理包括一半正常和一半异常视频，批量大小分别为64、16、64、2，T分别为16、16、8、8。在所有实验中，我们实验性地设置边缘值margin=0.3（范围[0, 1]），K=3（范围[1, 3, 5, 7]）， $\lambda_{\text{cs}} = 1$ ， $\lambda_d = 10$ 。我们设置了节点数n=32，状态st=128，N=0.8×T。对于训练，我们以端到端的方式使用Adam优化器[16]，权重衰减为0.0005，学习率为0.001。对于测试，我们设置λ为0.1、1、0.4和0.1。为了公平比较，我们使用了与[30, 33]相同的基准设置。更多细节，包括超参数的实验结果，请参阅补充材料。

4.2 Comparison Results

表1展示了使用最先进方法在四个基准上的比较结果。由于150FPS [23]是一种无监督方法，其训练集中只有正常视频，因此直接比较结果较为困难，因为训练/测试集与WVAD方法不同，但这些方法之间的性能差距很大。这表明弱标签的有效性，能够在低标注成本下实现高性能。考虑到上下文和运动之间的相互关系，所提出的方法在所有数据集上表现优于那些专注于时间依赖性[3, 43]或运动信息[47]的方法；Congqi等人[3]利用GCNs来捕捉时间依赖性，WSTR [42]通过一系列transformer编码器聚合多头关系以处理时间关系，而MA [47]只关注运动特征。与专注于时间关系的WAGCN [3]和WSTR [42]相比，所提出的方法在复杂现实场景的UCF-Crimes上比简单异常事件组成的ST表现出更好的结果，证明了上下文和运动相互关系的有效性。SSRL [18]在UCF和ST上表现出良好的结果，但与其他方法相比，它的输入需要通过骨干网络四次以利用多尺度块，并且多分支是用8个GPU训练的（轻量版本复杂度是原来的两倍，但仅比我们的方法提高了0.8和0.2 AUC）。
在这里插入图片描述
与基于MIL进行异常得分回归的方法[13, 20, 31]、应用中心得分损失的DMIL [35]以及调整内部包内得分差距的IBL [44]相比，特征学习方法[33, 37]包括我们的方法表现更好。特别是，与提出特征幅度学习和多尺度时间模块的RTFM相比，我们的CoMo结合距离学习在UCF-Crimes、XD-Vio.和ST上分别高出2.1%、3.5%和0.4%。

4.3. Ablation Studies

我们对所提出的模块和损失函数进行了消融研究。在表2(a)中，当仅添加模块时，在相同的损失函数下，CLAV的ICA和CS模块共同使用时表现出最高的性能提升，这表明CLAV有助于在一个分支内提取正常和异常的代表性特征。结合来自CLAV的特征，通过关系学习可以达到最高性能。对于整个框架的损失函数消融实验，在表2(b)中，当仅应用 $L_{\text{dist}}$ 时，性能低于基线 $L_{\text{mil}}$ 和 $L_{\text{aux}}$ ，这表明在嵌入空间中扩大单分支模型特征差距时，距离学习有其局限性。然而，利用通过CLAV的 $L_{\text{cs}}$ 得到的具有差异性的特征，表现良好。
在这里插入图片描述
在表3中，我们评估了通过ICA模块的CLAV聚合骨干网络特征的效果。由于通过ICA获得的特征 $F$ 用于相对距离学习，并作为CS和CoMo模块的输入，ICA模块在所提框架中扮演着非常重要的角色，从而带来了显著的性能提升。ICA设计为根据是否考虑正常和异常类别来隐式激活特征。当添加到MMIL上时，结果有意义，并且在大规模多样化的XD-Vio.数据集中显示出最大的性能提升。结构简单的ICA可以应用于任何其他VAD网络，以提高特征的类别表示能力。
在这里插入图片描述

4.4. Discussions

**跨数据库定量结果。**为了使视频异常检测器应用于现实生活，训练模型的泛化能力非常重要，因为在现实世界中的各种环境中操作与训练/测试数据不同。为了证明上下文和运动之间的关系信息对于数据域是稳健的，我们在表4中进行了验证泛化能力的实验。我们展示了通过源数据集训练的模型在目标数据集上的性能，以此展示模型适应领域差异的能力。由于ST中的一些异常事件，如人行道上跑步或跳跃，在UCF-Crimes和XD-Vio.中被视为正常情况，因此很难评估泛化能力。特别是，由于XD-Vio.中的大多数正常场景（例如电影场景中的人行道上跑步或骑自行车）在ST中被视为异常，我们的方法通过距离学习缩小了正常特征之间的差距，比RTFM显示了更严重的性能下降。
在这里插入图片描述
UCF-Crimes和XD-Vio.数据集对异常事件有相似的定义，但与包含监控视频的UCF-Crimes相比，XD-Vio.是一个更大规模的数据集，包含了体育、监控和电影等多种视频。因此，当XD-Vio.是源数据集而UCF-Crimes是目标数据集时，性能下降较小。相反的情况最适合于验证现实世界的泛化能力，在这种情况下，所提出的方法比RTFM显示出更低的性能下降。这表明上下文和运动之间的关系建模比仅考虑时间依赖性（如RTFM）更适合应对领域差异。
在这里插入图片描述
**关系建模。**表5展示了CoMo和RN [29] 在关系推理中的比较。RN是一种将每个特征成对连接并通过共享FC层嵌入关系以建模它们之间关系的方法。使用RN，我们通过在运动特征和上下文特征之间创建配对集合来提取每个关系向量。作为一种探索关系的方法，(a) 基线（没有CoMo的整体框架）和使用(b) RN的结果没有显著差异，但在© CoMo的情况下，分别在UCF-Crimes、ST和XD-Vio.上表现出0.44%、0.97%和0.73%的性能提升。这表明探索分别经过关系传播的上下文和运动特征之间的相互关系，比简单地进行成对连接推理更有效。
在这里插入图片描述

**失败场景。**图5显示了一些在正常视频中出现误报的例子。(a) 当一个人路过马路时，行走行为是正常的，但由于周围环境的关系显示出较高的异常得分。这种情况是一个模糊案例，可能根据定义被视为异常事件（乱穿马路）；这种边界模糊的问题是从实际应用角度需要解决的限制。(b) 视频前几帧停止播放导致高异常得分，尽管路上汽车的外观是正常的，但由于与静止车辆的运动关系而得分较高。相比之下，图8© 中，一个静态场景中物体放置在房间内并且有人出现的正常视频，通过物体和运动之间的关系得到了较低的得分。通过关注关系信息，对于暂停的视频可能存在误报的限制，这在现实世界中可能发生，但这个问题可以通过简单的预处理解决。
在这里插入图片描述

**类别的AUC。**在图6中，与其他方法相比，我们的方法在某些类别（如虐待或道路事故）上显示的AUC较低，这些主要是具有强烈运动的异常，相对简单，只需要额外的信息如光流就可以检测到。相反，对于需要理解运动和周围环境关系的袭击、入室盗窃和打斗等情况，我们的方法分别比MMIL高出30.5%、10.2%和2.4%，比RTFM高出23.4%、0.1%和8.1%。

4.5. Qualitative Analysis

在这里插入图片描述

**特征嵌入。**在图7中，I3D [4]、RTFM [33] 和我们提出的方法在全连接层之前的最终嵌入特征通过t-SNE [34] 算法进行了可视化。利用 (a) 骨干网络特征，© 通过调整正常和异常特征之间的相对距离的所提方法相比 (b) RTFM（该方法放大了正常和异常特征的幅度）显示出更可区分的结果。
在这里插入图片描述

**异常得分图。**在图8中，由于每种方法的得分分布不同，为了便于比较异常得分，将它们归一化到[0, 1]范围。通过这些图表，我们的方法与其他方法[31, 33]相比显示了更精确的时间定位。特别地，在(b) 入室盗窃场景中，关系信息很重要时，我们的方法也能产生较高的异常得分。此外，对于© 一个空房间内出现人的正常场景，它显示了一个稳定的得分。更多示例请参阅补充材料。

5. Conclusion

在现实世界的应用场景中，为了检测正常场景中的异常事件，我们首次强调理解上下文与运动之间的关系的重要性，而不仅仅是关注时间依赖性、特定运动或外观信息来应对未定义和未见的事件。因此，我们提出了CoMo，不仅关注运动，还根据正常或异常情况关注静态环境和上下文的关系。此外，使用单一预训练骨干分支和WVAD弱标签的最小监督，我们提出了CLAV来隐式激活每个类别的代表性特征（和原型应该差不多），并通过相对距离学习扩大它们之间的差距。该方法在四个基准测试中表现出色，并对复杂情况如抢劫和入室盗窃等显示了高性能，对令人困惑的正常情况也显示了稳定的得分。虽然由于日常生活中的模糊和复杂情况存在误报的限制，但我们期望高层次的关系信息能够极大地帮助提高泛化能力。

读后总结

感觉也像是拼模块，不过包装的比较好一点。在CLAV里面用了经典的重构的方法来学习数据特征，形成原型。然后用相对距离学习在特征空间中将异常和正常的原型拉远。在COMO里面，主要用的图卷积来寻找运动和相对静止的上下文之间的关系。在寻找上下文的过程中，用了光流来学习对运动强度评分的能力。进一步，选得分最低的一部分作为上下文，同时，又采用用于目标检测的yolov5来进行伪标签生成，来获得检测静止物体的能力。。在找运动和静止之间的关系变化。