Semantic-driven dual consistency learning for weakly supervised video anomaly detection

七77.

已于 2024-10-10 20:11:23 修改

阅读量820

点赞数 30

文章标签：深度学习多模态

于 2024-10-10 11:58:35 首次发布

本文链接：https://blog.csdn.net/weixin_46687145/article/details/142759446

版权

在这里插入图片描述
标题：弱监督视频异常检测的语义驱动双一致性学习
原文链接：Semantic-driven dual consistency learning for weakly supervised video anomaly detection
无源码
发表：模式识别-2025

Abstract

视频异常检测是计算机视觉中的一个重要挑战，其目标是从大量正常事件中区分出各种异常事件。弱监督视频异常检测最近作为一种有前景的解决方案出现，它能够在仅有视频级别标注的情况下检测出异常片段。然而，关于异常标注的知识仍然没有得到充分利用，这导致了视觉空间与对异常的语义理解之间存在差距，从而无法清晰地捕捉到异常与正常之间的界限。因此，我们提出了一种基于跨模态检测和一致性学习的弱监督范式，利用双重一致性为异常在语义-目标级和目标-片段级提供具有辨识性的表示。具体来说，我们引入了一个跨模态检测网络，该网络根据给定的语义规则来检测每一帧中的目标，以推导出语义一致的视觉嵌入。为了描绘异常与正常之间的清晰边界，提出了一个跨域对齐模块，通过学习目标嵌入与片段嵌入之间的上下文一致性来增强异常目标的辨识性表示。我们的架构整合了基于可变语义规则的语义一致目标检测，确保跨场景的可迁移部署，并通过“何时-何地-哪个”的流程实现对异常事件的全面识别、定位和识别。我们方法的评估是在四个广泛使用的公共基准数据集上进行的：ShanghaiTech、UCSD Ped2、CUHK Avenue 和 UBnormal，通过广泛的定性和定量分析来进行。结果表明，我们的方法在处理VAD（视频异常检测）任务时表现出色。

Keywords: Video anomaly detection; Weakly-supervised; Dual consistency; Cross-modal

1. Introduction

视频异常检测（VAD）是计算机视觉领域的一个热门话题，它专注于从大量的监控视频流中自动识别不寻常的片段、帧和目标，从而提高公共安全并减少劳动力成本。VAD在许多现实世界的应用中变得普遍，比如视频监控、自动驾驶以及道路交通分析。然而，异常事件的稀有性和多样性给收集和标注平衡的正常与异常数据带来了挑战。此外，异常的定义取决于上下文，在不同场景之间会有变化。

与需要对不平衡视频进行帧级别标注的全监督VAD方法相比，无监督VAD方法仅使用正常数据进行训练，并利用模型性能差异作为指示器来检测开放式异常。大多数无监督模型遵循基于重构的分布外（OOD）检测范式，采用编码-解码框架训练于分布内（ID）数据上，这通常导致ID样本和OOD样本之间产生不同的结果。但是，与预期相反的是，基于重构的VAD方法被报道能够准确地重构各种类型的异常目标，因为自编码器对于训练数据中的离群点敏感并且倾向于容易重构的目标，即使它们是异常的[1]。尽管很多方法采用正则化来减轻潜在编码中的偏差，缺乏关于异常的引导先验知识仍然限制了它们的表现。

最近，弱监督视频异常检测（WS-VAD），只需要视频级别的二元标签，就以最小的标注成本实现了最先进的性能，引起了越来越多的关注。大多数WS-VAD方法被制定为一个非平凡的二分类任务，仅仅基于视频级别标签训练一个分类器来检测帧级别的异常。为此，它们使用多实例学习（MIL）将正常和异常视频视为包，将片段视为实例，对每个片段打分并根据排名最高的片段进行优化。虽然WS-VAD展现了一种平衡成本和性能的有希望的范式，但粗略的标注也使得难以学习到针对细粒度异常的目标级辨识性表示。

先前的工作[2,3]试图通过在完全标记的大规模运动数据集上预训练特征提取器来学习片段丰富的表示，以此放大异常与正常片段之间的差异。然而，利用任务无关的特征提取器来提取依赖场景的异常表示显然是次优的，因为缺乏场景相关知识可能导致源域和目标域之间的领域（特征）漂移，如图1所示。尽管一些研究利用伪标签或伪样本来微调，这些方法受到初始伪标签和伪样本质量的影响[4,5]。
图1. 源域与目标域之间特征漂移的可视化示例。使用在完全标注的大规模动作数据集上为动作识别（AR）任务（源域）训练的特征编码器来从VAD任务（目标域）中的视频片段提取特征，可能导致领域（特征）漂移问题。在目标域中，“推手推车”和“行走”分别被识别为异常事件和正常事件，而在源域中，它们都被认为是与行走相关的动作。
在实际监控场景中，正常和异常事件都是上下文相关的。例如，虽然在校园内行走通常被认为是正常的，但在车道上则是异常的。因此，与其依赖信息量不足的标签规则来定义异常，不如采用语义规则来弥合视觉空间与语义空间之间的差距。尽管最近的方法如[6,7]探索了使用多模态提示来解决异常定义模糊的问题，但粗糙的视频级别标签仍然阻碍了捕捉异常帧内细粒度异常目标的能力，导致特征塌陷，不利于实际部署。

为了克服上述挑战，我们从零样本学习[8]中汲取灵感，构建视觉与语义空间之间的映射。我们将WS-VAD形式化为一种跨模态检测和一致性学习范式，引入场景相关知识来描述异常与正常之间的清晰界限。首先，我们利用场景相关知识来定义语义规则而非二元标签规则，并引入跨模态检测网络（CMDN）来学习语义一致的异常目标。同时，提出了跨域对齐模块（CDAM）来学习正常目标与片段嵌入之间的上下文一致性，从而纠正目标特征漂移。与先前的方法论不同，我们的方法同时提高了异常视觉特征的独特性并紧缩了语义规则的嵌入。因此，我们的方法可以根据检测到的异常目标的语义内容及时空位置提供更多有关异常的细节。另外，由于语义规则可以根据任务场景灵活改变，并且预先训练好的CMDN可以保持不同语义规则间的语义关系，我们的模型可以在不需要重新训练的情况下跨不同场景转移。

具体来说，所提出的方法做出了以下四项贡献：

我们将WS-VAD重新表述为一种跨模态检测和一致性学习范式，引入场景相关知识来描绘异常与正常之间的明确界限。
我们提出了CMDN和CDAM，通过学习异常目标的语义一致性和正常目标与片段嵌入之间的上下文一致性来纠正目标特征漂移。
我们的方法提供了对异常事件全面的理解，涵盖了语义（哪些）、空间属性（哪里）以及时间动态（何时），从而实现异常检测和理解。
我们在四个真实世界的基准上进行了全面的经验评估，展示了我们的方法相对于众多最先进竞争方法的优越表现。

本文的结构如下：第2节回顾相关文献；第3节概述我们的动机和提出的方法；第4节介绍实现细节和实验结果；第5节提供讨论；第6节总结全文。

2. Related work

在本节中，我们将回顾与我们的工作相关的无监督和弱监督异常检测以及跨模态检测的相关工作。

2.1 Unsupervised video anomaly detection

现有的大多数无监督方法可以分为四大类：一类分类（OCC）模型、重构模型和预测模型。
在VAD中，研究者通常将任何显著偏离正常行为的行为归类为异常。因此，在缺乏异常标签的情况下，VAD任务可以被表述为一个OCC问题[9]。这一模型的基本原理是识别出一个超球体来涵盖正常数据的网络表示。任何位于该超球体外的数据点都被视为异常。然而，由于对异常和正常的定义存在模糊性和多样性，这种方法的表现不佳。

为了处理正常样本与异常样本之间的严重不平衡，基于重构的异常检测方法通常以无监督方式学习正常行为的特征[10]。重构模型的基本概念是利用深度自编码器（DAE）在测试阶段以较低的重构误差来重建正常数据，目的是使它们的分布紧密地与训练数据保持一致。因此，异常数据的重构误差预期会更高。尽管DAE及其衍生方法被广泛采用，但有研究表明，如果DAE无法泛化异常数据，那么假设异常具有较高重构误差可能不成立。换句话说，DAE强大的表征能力有时会导致异常帧以低误差被重构。

为了解决这个问题，近期的研究倾向于使用生成对抗网络（GAN）或DAE根据前一帧的情境来预测未来帧[11]。预测模型假定正常事件可以被准确预测。因此，预测帧与其真实值之间的差异可以用作检测异常事件的方法。已经明确显示，重构模型和预测模型的基本优势在于，它们可以根据重构或预测结果推断异常事件发生的时间和地点。但是，没有场景相关知识，无论是基于重构还是基于预测的方法都无法捕捉到异常事件和正常事件之间的清晰界限。

2.2 Weakly supervised video anomaly detection

近年来，WS-VAD方法受到了越来越多的关注，旨在利用视频异常的先验知识同时最小化成本。这些方法在多实例学习（MIL）框架内运作，试图仅使用视频级别的标注来推导精确的片段级别标签，因为标注帧级别标签需要大量资源。

Sultani等人[12]首次定义了WS-VAD范式，并提出了一个深度多实例排序框架，利用弱标记的训练视频。Wan等人[13]通过采用动态MIL损失来增加异常片段与正常片段间的类别距离，同时利用中心损失减少正常片段内的类别距离。Tian等人[3]介绍了鲁棒时间特征幅度学习（RTFM），通过扩张卷积和自注意力机制训练特征幅度学习函数，增强检测正例特别是细微异常的鲁棒性。Feng等人[4]提出了MIST，一个用于WS-VAD的自训练框架，利用视频级别标注精炼辨识性表示，包括伪标签生成器和自我引导注意加强的特征编码器，通过自训练方案优化。Sapkota等人[14]引入了贝叶斯非参数子模块视频分割（BN-SVP），通过利用动态非参数层次聚类创建监控视频中的可解释场景，显著增强了MIL模型训练。Li等人[2]开发了一种多序列学习方法，将包含多个片段的序列作为一个优化单元，以获得视频级别的异常概率和片段级别的异常分数。Cho等人[15]引入了类激活特征学习（CLAV），通过特定类别的权重激活增加类别间的特征差距来提高特征辨别力。Lv等人[16]提出了无偏MIL（UMIL）框架，通过使用当前检测器将片段分成自信分类组和模糊组，然后在这两组间学习不变特征以消除上下文偏差，从而解决了传统MIL中的误报问题。最近，He等人[17]介绍了一种对抗与聚焦训练（AFT）方法，结合基于数据的对抗增广和基于模型的聚焦训练来解决视频间数据不平衡的问题。

现有的WS-VAD方法通常依赖于大规模动作数据集上预训练的模型（源域）为VAD（目标域）提供任务无关的表示。源域的动作视频通常只包含一个标签，而且大多数视频只有一种类型的动作；即使某些视频中存在其他动作，它们也被视为噪声。然而，在目标域视频中，存在多种目标的多种动作，并且异常活动和正常活动可能共存，这导致了领域漂移问题。尽管任务无关的特征编码器被认为是WS-VAD的一个瓶颈问题，但由于缺乏有效的标注，阻碍了可行解决方案的发展[4]。

此外，大多数研究只能进行粗略级别的检测，即只能检测异常事件何时发生，而不能提供时空细节，这对实际应用部署产生了负面影响。虽然有些研究如[18]试图通过建模多粒度异常概念和实例关系来解决这一局限性，但检测性能仍然没有改善。

2.3 Cross-modal detection

跨模态检测旨在确定输入文本与图像的相关性并对图像进行定位。文本特征使用预训练的语言嵌入（例如BERT [19]）进行编码，而视觉特征通常从预训练的视觉骨干（如ResNet和Faster R-CNN）中提取。大多数方法都力求通过获取图像块和语义特征之间的跨模态嵌入空间来同时执行对象检测和自然语言理解[20]。尽管这些方法很有趣，但尚未应用于下游VAD任务。关于跨模态检测方法的详细检查，请参阅[20]。

3. Proposed method

在本节中，我们将WS-VAD重新表述为一个跨模态检测和一致性学习范式（见图2），并详细介绍了所提出的架构，该架构旨在捕捉异常与正常之间的清晰边界，并自动提供更多关于异常的细节。表1提供了本文使用的符号摘要。
图2. 所提网络的流程。我们提出的网络由四个关键组件组成：跨模态检测网络（CMDN）、跨域对齐模块（CDAM）、语义一致过滤模块（SCFM）以及基于多实例学习（MIL）的弱监督视频异常检测（WS-VAD）骨干。CMDN接收视频帧和语义规则作为输入，并在每一帧中检索符合语义规则的目标。SCFM从片段中的所有语义规则中选择置信度最高的目标，随后使用预训练的特征提取器将其编码成语义一致的视觉嵌入。CDAM学习目标嵌入与片段嵌入之间的上下文一致性。CDAM和基于MIL的WS-VAD骨干使用视频级别的标签进行训练，优化排名靠前的片段的异常得分

图2. 所提网络的流程。我们提出的网络由四个关键组件组成：跨模态检测网络（CMDN）、跨域对齐模块（CDAM）、语义一致过滤模块（SCFM）以及基于多实例学习（MIL）的弱监督视频异常检测（WS-VAD）骨干。CMDN接收视频帧和语义规则作为输入，并在每一帧中检索符合语义规则的目标。SCFM从片段中的所有语义规则中选择置信度最高的目标，随后使用预训练的特征提取器将其编码成语义一致的视觉嵌入。CDAM学习目标嵌入与片段嵌入之间的上下文一致性。CDAM和基于MIL的WS-VAD骨干使用视频级别的标签进行训练，优化排名靠前的片段的异常得分。

3.1. Problem setup

在弱监督范式中，训练集中的每个带有单个二元视频级别标签 $\in \{0, 1\}$ 的视频 $V$ 被划分为 $N$ 个不重叠的片段，每个片段包含 $T$ 帧连续帧 $\{F_t|t = 1,\ldots, T\}$ 。大多数WS-VAD方法通常基于MIL使用二分类器，将每个视频视为一个包，而包内的每个片段 $S$ 视为一个实例。异常视频被视为一个正包 $B_a = \{S^i_n, S^j_a|i + j = N\}$ ，它既包含正常片段也包含异常片段，而正常视频被定义为负包 $B_n = \{S^i_n|i = 1,\ldots, N\}$ ，仅由正常片段组成。然后，这些片段通过预训练在大型动作识别数据集上的任务无关特征编码器 $E_s$ 进行编码。

现有的WS-VAD方法旨在学习一个能够为每个片段预测异常得分的排名模型。理想情况下，模型应该对异常片段的嵌入 $E_s(S^i_a)$ 分配比正常片段 $E_s(S^i_n)$ 更高的异常得分：

显然，当前的方法严重依赖于任务无关特征编码器的表现。虽然在大规模动作数据集上的预训练确保了对各种动作的有效表示，但在仅有视频级别标签的情况下，现有WS-VAD框架内出现了三个挑战。在异常片段中，异常目标和正常目标经常共存。任务无关的空间-时间特征编码器是基于每个视频只含单一动作的动作视频进行训练的，缺乏对异常的先验知识，因此不能保证对异常目标，特别是在多目标场景中的有效表示。其次，目前的WS-VAD方法只能根据异常分数确定哪些片段属于异常，而无法提供有关异常目标的更多细节，例如其位置和语义类别。第三，现有的WS-VAD方法利用数据集中二元视频级别的标签来学习任务场景中正常和异常目标之间的差异，因此，在不同场景之间转移时需要重新训练。

为了解决现有WS-VAD方法的局限性，受到零样本学习[8]对开放集情景理解的启发，我们将WS-VAD形式化为一种跨模态检测和一致性学习范式。我们的方法专注于充分利用WS-VAD范式中标注异常视频的语义信息。通过使用跨模态检测网络，我们可以有效地检测视觉上语义一致的目标。通过对上下文相关目标与任务无关特征进行对齐，可以缓解特征漂移，最终产生语义一致的特征表示。如图2所示，我们的架构包括四个基本组成部分：跨模态检测网络（CMDN）、语义一致过滤模块（SCFM）、跨域对齐模块（CDAM）以及基于MIL的WS-VAD骨干。

CMDN接受每个视频片段 $S_i$ 和所有语义规则 $r$ 作为输入，并在每一帧中识别出符合语义规则的目标。SCFM选择片段中所有语义规则中最自信的目标 $R_i$ 。上述过程可以形式化如下：

使用预训练的视觉特征提取器 $E_R$ 将选定的 $R_i$ 编码成语义一致的视觉嵌入后，CDAM学习目标与片段嵌入之间的上下文一致性，以获得视频片段的最终表示 $f_s$ 如下：
在这里插入图片描述
CDAM和基于MIL的WS-VAD骨干使用视频级别的标签进行训练，优化顶级片段的异常分数，以减轻特征漂移并增强语义-视觉表示的一致性。

3.2. Cross-modal detection network

嵌入语义规则：在给定的任务场景中，我们首先定义与场景相关的 $K$ 个语义规则 $\{r_k|k = 1,\ldots, K\}$ 。例如，在人行道上，可以将“三轮车”、“汽车”、“自行车”等禁止通行的交通实体定义为语义规则。然后，我们利用预训练的语言模型 BERT [19] 将每个语义规则嵌入到高维语义空间中，如下所示：
在这里插入图片描述
提取视觉特征：对于每个视频帧 $F_t$ ，我们采用在 ImageNet 上预训练的 ResNet101 作为图像编码器来提取其视觉特征，如下所示：

检测语义一致的目标：之后，来自不同模态的特征通过特定于模态的线性投影（包括多个全连接层）被嵌入到一个共同的潜在空间中。我们使用 Transformer 编码器来捕捉拼接特征之间的上下文关系，并输出每个帧中与语义规则一致的目标边界框，如下所示：
在这里插入图片描述
在训练阶段，CMDN 接受原始帧、位置和纯文本作为输入。在我们的方法中，我们的目标是找到最佳匹配的预测结果和真实边界框。因此，按照[21]的方法，我们使用 L1 损失和 GIoU 损失来评估预测结果与实际边界框的得分，并使用对比跨模态损失来衡量输入帧与语义规则之间的匹配程度。

基于 MDETR [21] 提供的骨干网络，我们的 CMDN 在 COCO 数据集上进行了预训练，并在 RefCOCO 上进行了微调。在测试阶段，我们可以根据语义规则从帧中检索相关内容，结果将以带有检测概率的边界框形式提供。Transformer 的详细编码-解码结构包含在附录中。

3.3. Semantic consistency filtering mechanism

对于每个语义规则 $r_k$ ，CMDN 会通过计算 $max\,score(R_i, r_k)$ 在帧 $F_i$ 中生成具有最高置信度得分的检测结果 $R_i$ ，不论该帧中是否包含与语义规则一致的内容。因此，利用 $K$ 个语义规则，我们为每一帧推导出 $K$ 个检测目标。在一个由 $T$ 帧组成的片段中，我们检测一组 $\times K$ 个目标，如下所示：
在这里插入图片描述
目标集包含了语义上一致的异常目标、正常目标以及其他误检图像。因此，有必要过滤这些目标集合，并选择片段内最具代表性的异常目标。

显然，对于不同的语义规则，较高的置信度得分并不一定意味着更高的置信度。例如，一个置信度得分为0.97的自行车可能表示了一个失败案例，而一个置信度得分为0.93的汽车则表示了正确的结果。为了解决这些问题，我们引入了一个带有实验阈值 $\eta$ 的SCFM（语义一致过滤模块）来缓解检测偏差。可以通过计算每个规则下正确检测到的目标的平均概率来获得 $\eta$ 。具体来说，对于每帧中的所有语义规则，我们仅当某个目标 $R$ 的标准化得分高于计算的阈值时，才选择该目标作为输出：
在这里插入图片描述

否则，如果置信度得分低于计算的阈值，我们就选择标准化得分最高的目标作为输出：
在这里插入图片描述

这表明在第 t 帧中可能没有检测到语义一致的视觉目标。

对于由 $T$ 帧组成的片段，上述帧级过滤机制使得可以提取 $T$ 个候选目标。我们选择排名前 $M$ 的目标，并使用预训练的ResNet-50将它们编码成片段级别的语义一致视觉嵌入，如下所示：
在这里插入图片描述

3.4. Cross-domain alignment module

当前的WS-VAD方法通常依赖于任务无关的编码器来编码视频片段，而使用在Kinetics数据集上预训练的编码器已经成为弱监督范式中的一个实际策略。然而，对于预训练编码器，我们发现其源训练域和目标任务场景之间存在领域漂移。这给当前的WS-VAD方法带来了关键瓶颈，这个问题之前尚未得到解决。为此，我们提出了跨域对齐模块（CDAM），通过将语义一致的目标与片段级别的嵌入进行对齐，以实现跨域表示，从而缓解特征漂移问题。
在这里插入图片描述
具体来说，目标嵌入和片段级别嵌入是异构特征（前者来自静态图像编码，后者来自时空编码）。我们在CDAM中设计了一个双自注意力机制，以便在共享特征空间中对它们进行对齐，同时保留大部分原始信息，如图3所示。详细地，我们采用现成的膨胀3D卷积网络（I3D）来获取片段的视觉嵌入 $f_{I3D}$ 。当查询片段的嵌入 $f_{I3D}$ 时，输入包括一个查询 $FC(f_{I3D}) \in \mathbb{R}^d$ 和键值对 $FC(f_r) \in \mathbb{R}^d$ 。而在查询语义一致的目标嵌入 $f_r$ 时，输入则是一个查询 $FC(f_r) \in \mathbb{R}^d$ ，以及键值对 $FC(f_{I3D}) \in \mathbb{R}^d$ 。随后，通过对查询与所有键之间的点积应用softmax函数来获得值上的权重。聚合之后，每个片段的最终表示可以表示为：
在这里插入图片描述
与典型的Query-Key-Value (QKV)模型的注意力机制相比，CDAM中的双自注意力机制既保留了目标和片段特征的信息，又考虑了它们之间的相关性。

3.5. MIL-based training

遵循标准的多实例学习（MIL）设置，我们设计了一个简单的回归网络，包括两个全连接层（FC层），随后是一个softmax层，为小批量中的视频片段 S分配排名分数： $\alpha = \text{softmax}(W_2 \text{ReLU}(W_1 f_s + b_1) + b_2)$ 。选择具有top-k分数的片段，使用交叉熵损失和中心损失来训练我们的模型：
在这里插入图片描述

其中 $\alpha_i$ 表示片段 $S_i$ 包含异常事件的概率， $n$ 是包中视频片段的数量， $c_i$ 是第 $i$ 个正常片段的异常得分中心，而 $\lambda$ 是对先验项的权重。

初始时，当一个视频被标记为异常 $y_i = 1)$ 时，该视频的片段将根据异常分数进行排名。随后，交叉熵损失识别出排名靠前的片段，并利用视频的标签来提高它们的异常分数。相反，如果一个视频被标记为正常 ( $y_i = 0$ )，中心损失计算所有片段的平均异常分数，并减轻那些超过所有正常片段平均值的分数。此外，中心损失还调节异常视频中正常片段的分数，防止它们被错误地识别为异常。

4. Experiment

4.1. Video anomaly detection datasets

我们在四个公开的数据集上进行了广泛的实验：ShanghaiTech [22]、UCSD Ped2 [23]、CUHK Avenue [24] 和 UBnormal [25] 数据集。

ShanghaiTech数据集 [22] 被广泛认为是VAD（视频异常检测）领域最全面和现实的数据集之一。它包括437个视频，记录了上海科技大学周围13个不同摄像头捕捉到的各种异常事件。原始数据集分为训练集（包含330个正常视频）和测试集（包含130个异常事件）。每个视频的分辨率为480×856像素。为了确保对我们的方法进行公平评估，我们遵循了[3, 13]中采用的弱监督设置。我们通过选择涵盖所有13个摄像头的异常视频子集来重新组织了训练/测试划分策略。我们的模型仅使用视频级别的标签进行训练。

UCSD Ped2数据集 包含16个训练视频和12个测试视频，共12个异常事件。每个视频大约有170帧，分辨率为360×240。根据先前研究[3]的方法论，我们将Ped2数据集重新制定为弱监督协议。这涉及到将六个异常视频和八个正常视频随机分配给训练集，剩余的视频则被分配到测试集。

CUHK Avenue数据集 [24] 包含16个训练视频和21个测试视频，全部拍摄于一个地铁站前。单场景设置使其非常适合无监督方法。在标准无监督设置中，该数据集被划分为包含16个视频的训练集和包含21个视频的测试集。然而，我们采用了弱监督设置，并通过将部分异常测试视频纳入训练数据来重新组织数据集。这个新的训练集由19个正常和异常视频组成，而剩余的视频用于测试。

UBnormal数据集 [25] 是一个合成的监督开放式基准，包含268个训练视频、64个验证视频和211个测试视频。这些子集中包含了正常和异常视频的混合。该数据集的一个显著挑战在于训练集和测试集中存在不相交的异常类型集合。尽管UBnormal数据集提供了像素级和帧级的注释，我们选择了仅使用视频级别的标签来训练我们的模型。

4.2. Implementation details

我们的模型在ShanghaiTech、UCSD Ped2、Avenue和UBnormal数据集上使用所提出的损失函数训练了500个epoch。训练步骤的批次大小设置为64，网络初始化采用Xavier方法，FC层的dropout概率设为0.6。对于优化，我们使用Adam优化器，学习率为0.0001，动量为0.9来训练我们的模型。在表2中，我们列出了不同数据集的活跃语义规则。值得注意的是，为了符合开放式设置，在UBnormal数据集中，我们仅定义“人”作为语义规则；其作用是引导模型关注与人相关的异常事件，而不是指定某个特定的对象或行为作为语义规则。
在这里插入图片描述

4.3. Comparison with the state-of-the-art

基线比较。我们将我们的方法与许多最近的最先进模型进行了比较，这些模型包括无监督、自监督和基于弱监督的方法。这些方法的检测结果要么直接从相应的论文中提取，要么由其他研究再现。

按照标准实验协议，我们通过计算接收者操作特征曲线下面积（AUC-ROC）来衡量平均曲线下面积（AUC）。如表3所示，我们在ShanghaiTech数据集上报告了我们的方法以及最先进方法的AUC-ROC性能。
在这里插入图片描述

上海科技大学数据集的结果：
从表3可以看出：我们的模型在ShanghaiTech数据集上取得了最佳结果，实现了98.75%的平均AUC。
特别地，我们的方法比AFT [17] 提高了0.56%的性能。我们的方法显著优于其他基于弱监督的方法[3, 33]。应该注意的是，许多最先进的方法利用了Ten-crop技巧，通过将片段裁剪为中心、四个角落及其翻转版本来提高性能。我们没有使用裁剪技巧就达到了上述结果；为了公平起见，我们也重新实现了RTFM [3] 和MSL [33] 而不使用裁剪技巧，因为裁剪技巧会带来不必要的计算负担。例如，在相同的设置下，我们的方法相对于这两种方法分别提高了4.01%和3.45%。即使与使用裁剪技巧的结果相比，我们的方法仍然超过了这两个竞争对手。这一结果表明了我们的方法在利用语义知识进行异常检测方面的有效性。

在这里插入图片描述

UCSD-Ped2数据集的结果：
我们在表4中展示了UCSD-Ped2的结果。我们的方法在不使用裁剪技巧的情况下达到了99.92%的平均AUC，比之前的最先进方法[3]高出3.75%。与最新的AFT方法[17]相比，我们的方法也提高了0.91%的性能。实验结果表明，我们的方法在单一场景且行人流量大、目标尺度小的情况下仍保持竞争力。与其他与我们最相关的弱监督方法[2, 3, 13]的比较结果显示，所提出的CMDN和CDAM可以在上述两个数据集中显著提高AUC性能。这也表明所提出的模块是通用的，并可以嵌入到其他方法中。

在这里插入图片描述
Avenue数据集的结果：
如表5所示，Avenue数据集的AUC结果表明，即使在异常事件注释不完整的情况下，我们的方法也能产生与最先进的无监督学习方法相当的结果。与最近的WS-VAD方法[38]相比，我们的方法在AUC性能上提高了0.39%。虽然一些自监督方法[30, 31]的表现优于我们的方法，但我们认为这部分是因为自监督学习在单一且简单的场景中具有内在优势，部分也是由于Avenue数据集中异常事件的独特定义。相比之下，我们的模型在多个复杂场景中（如包含13个场景的ShanghaiTech）可以超越所有其他方法。

在这里插入图片描述

UBnormal数据集的结果：
如表6所示，我们的方法在开放集设置下仅依赖于单一语义规则就在UBnormal数据集上取得了最先进结果。与基于弱监督的方法如MIL [12] 和RTFM [3] 相比，我们的方法表现出显著改进，AUC分别提高了29.1%和4.5%。此外，与最先进的自监督方法相比，我们观察到了12.5%的显著改进。

4.4. Qualitative results

在图4中，我们提供了我们的方法（第二行的深色线）与真实情况（红色区域）以及竞争对手[3]（第一行的蓝色线）在上海科技大学和UBnormal数据集上的预测异常样本和得分。按照WS-VAD的标准协议，每个视频被分割成多个视频片段。因此，某些片段可能只包含不完整或小规模的异常，导致仅使用片段级别嵌入的竞争对手得到较低的分数。在这种情况下，我们的方法通过结合目标和片段级别的嵌入能够为大多数异常片段提供更准确的异常得分。
在这里插入图片描述

在这里插入图片描述
为了展示我们模型的优势，我们在图5中随机选择了上海科技大学、UCSD Ped2和Avenue数据集中的一些异常事件检测结果。我们的方法能够实现对异常事件的语义和位置细节的捕捉，这是其他VAD方法尚未充分利用的一个特性。这一优势有助于建立一个更加稳健和智能的监控系统。在实际应用中，不仅需要识别异常事件发生的时间和地点，还需要理解这些事件的本质，以便采取进一步措施。

在这里插入图片描述

我们利用t-SNE来可视化任务无关特征提取器生成的原始特征空间以及我们方法生成的特征空间。如图6所示，在UCSD Ped2和上海科技大学数据集上的可视化结果显示，我们的模型能够将原始特征空间转换成具有语义一致性和可分离性的特征空间。在我们模型生成的特征空间中，正常和异常特征分别聚类，并且正常事件和异常事件之间有明显的边界。

4.5. Ablation study

我们进行了消融实验，以经验性地展示在ShanghaiTech和UCSD Ped2数据集上整合CMDN（跨模态检测网络）和CDAM（跨域对齐模块）对我们方法的重要性。相应的结果报告在表7中。
在这里插入图片描述

**表7中的AUC性能：**如果没有CMDN和CDAM，我们的方法会退化为一个标准的弱监督学习方法作为基线。这种基线在上海科技大学数据集上仅达到91.24%的AUC，在UCSD Ped2数据集上达到95.12%的AUC。通过添加CMDN并使用自注意力机制替代CDAM，上海科技大学数据集上的AUC性能提升到97.10%，UCSD Ped2数据集上的AUC性能提升到98.21%。与CDAM相比，CMDN通过提供异常事件的实际语义先验知识对最终结果贡献更大。我们发现简单地连接两个特征比使用自注意力机制效果更好，这表明保留两方面信息的重要性。当将CMDN和CDAM加入到我们的基线时，整个模型的AUC结果分别提高到上海科技大学数据集上的98.75%和UCSD Ped2数据集上的99.92%。这一结果强调了CMDN和CDAM的必要性，它们增强了整体性能，并在预测异常分数时互相补充。

在这里插入图片描述

**跨数据集性能分析：**为了评估我们模型的泛化能力，我们执行了跨数据集性能分析。这包括在一个源数据集上训练模型，然后在目标数据集上评估其性能，考虑到现实世界环境中训练和测试数据之间可能存在的差异。表8中的实验结果显示，我们的方法具有良好的性能和强大的跨数据集泛化能力。具体来说，当在ShanghaiTech数据集上训练后，我们的方法在Avenue测试集上获得了88.73%的AUC。此外，使用Avenue数据集预训练的模型，我们在ShanghaiTech测试集上达到了95.83%的AUC。尽管与在原始训练集上训练的模型相比性能有所下降，但结果表明它仍然有效，甚至超过了某些VAD方法。
在这里插入图片描述

**每个语义规则对模型性能的影响：**如表9第一行所示，我们系统地将单个语义规则集成到模型中，并通过选择性地移除每个语义规则来评估它们对上海科技大学数据集的影响，如第二行所示。实验结果表明，“自行车”规则对性能影响最大。这是因为如果没有这个规则，由于视角和尺度相关的问题，上海科技大学数据集中与自行车相关的异常很容易被误认为是行人。在图7中，我们展示了我们的方法在上海科技大学数据集上的检测性能。在这里插入图片描述

4.6. Hyperparameter sensitivity analysis

为了展示超参数对我们的方法性能的影响，我们报告了当 $\lambda$ 从0增加到0.2时的评估结果，如表10所示。结果显示，在ShanghaiTech数据集上，当 $\lambda = 0.05$ 时，预测的异常得分达到最高的AUC为98.75%。此外，在UCSD Ped2和Avenue数据集中，当 $\lambda = 0.1$ 时，预测的异常得分分别达到最高的AUC值99.92%和91.19%。
在这里插入图片描述

4.7. Limitation

我们的模型的局限性主要与跨模态检测器的性能和语义规则的定义有关。目前，使用CMDN（跨模态检测网络）来检测一帧图像需要1秒的时间，而其他模块的推理速度则在毫秒级别。因此，提高跨模态检测器的性能对于在实际场景中部署我们的模型更加有益。

此外，当前语义规则的定义基于我们对训练集中异常情况的先验知识，这在一定程度上限制了模型在开放环境中的部署。我们认为一个可能的有效解决方案是将语义解释为知识图谱中的实体，在这个图谱中，这些实体之间的层次关系和关联关系形成了语义的结构化表示。通过利用知识图谱中的正常和异常语义，我们可以进行推理以自动检测潜在的异常。这是因为知识图谱不仅提供了语义实体之间的关系，还封装了关于这些实体的丰富信息。当与知识图谱结合时，系统可以通过检测与已知正常语义相比的不一致或异常出现来识别潜在的异常语义。

5. Discussion

在这一部分，我们将提供我们方法特性的详细比较和解释。首先，在现有的弱监督视频异常检测（WS-VAD）方法中，异常检测器通常仅基于二元异常标签和任务无关的片段嵌入进行训练。如前所述，任务无关的片段编码器是在包含单一动作的视频上预训练的。然而，异常视频通常涉及多个目标和多样化的动作。因此，编码器倾向于优先表示大规模或已见过的目标，无论它们是否异常。此外，使用二元标签来训练特征表示只能部分增强重要异常特征的区分能力。

虽然目前使用二元标签进行模型训练是有效的，比如在当前的数据集（如ShanghaiTech、Avenue等）中，异常目标通常具有较大的规模并且帧中的人员较少。受到零样本识别的启发，我们的方法通过检测语义一致的异常目标，并对来自不同域的视觉特征进行对齐，从而更好地利用了标注的训练数据，增强了异常目标的表示能力。与之前的方法不同，当使用二元标签进行训练时，我们可以使语义一致目标的特征编码更加紧凑。这在开放集识别中尤为重要，因为异常目标在原始空间中表现出一定的聚类特性。例如，如果我们在训练集中将自行车定义为异常，则类似但未见过的电动自行车也可以被成功识别为异常。最后，我们的方法可以提供更多关于异常的详细信息，这是以往方法无法比拟的。

6. Conclusion

受到零样本学习的启发，我们引入了一种新颖的语义驱动解决方案用于弱监督视频异常检测（WS-VAD）。通过充分利用从标注视频中提取的语义知识，我们的方法弥合了异常语义与视觉特征之间以及源域和目标域之间的差距，实现了精确且可解释的异常检测。所提出的方法包括一个跨模态检测网络和一个跨域对齐网络，分别专注于异常目标检测和跨域特征对齐。这使得模型能够在监控视频中提供更多关于异常的细节信息，如发生时间、位置及类别。该模型在多个数据集上展示了最先进的性能。对于未来的工作，开发一种场景自适应的知识生成策略、端到端的学习框架，并结合其他模态的知识以改进VAD任务中的指导将是很有吸引力的方向。

Appendix

在图A.8中，我们展示了CMDN中Transformer的编码器-解码器结构，提供了详细的见解。首先，我们分别使用预训练的ResNet和BERT模型提取图像和文本特征。然后，通过一个多层感知机（MLP），我们将图像特征的维度降低到256维，以匹配文本特征的维度。随后，我们将来自不同模态的特征连接起来，并将其输入到Transformer的编码器中。编码器包含六层，每层由八个多头自注意力（MHA）机制和几个线性层组成。接下来，在解码器中，我们使用相同配置的6层，每层包含8个MHA机制和额外的线性层。最后，我们对特征应用回归变换，以获得目标的检测框信息和类别信息。
在这里插入图片描述