【视频异常检测】Clustering Aided Weakly Supervised Training to Detect Anomalous Events in Surveillance Vid..

文章信息:

在这里插入图片描述

发表于:2023 Neural Networks and Learning Systems(中科院1区)
原文链接:https://arxiv.org/abs/2203.13704
源码:无

Abstract

利用仅有的视频级标签来制定检测现实世界异常事件的学习系统是一项具有挑战性的任务,主要原因是存在噪声标签以及训练数据中异常事件的稀少性。我们提出了一种弱监督异常检测系统,该系统有多个贡献,包括一个随机批选择机制以减少批间相关性,以及一个正常性抑制模块,该模块通过利用训练批中的整体信息来学习在视频的正常区域内最小化异常分数。此外,我们还提出了一个聚类损失模块,用于减轻标签噪声并改进异常和正常区域的表示学习。这个模块鼓励主干网络生成两个分别代表正常和异常事件的特征簇。我们在三个流行的异常检测数据集上对所提出的方法进行了广泛的分析,包括UCF-Crime、ShanghaiTech和UCSD Ped2。实验结果表明,我们的方法具有优越的异常检测能力。

I. INTRODUCTION

异常事件检测是一个重要的问题,具有众多现实世界的应用,包括交通管理[1],[2],人群管理[3],健康与医学[4],网络安全[5],以及监控安全系统[6],[7],[8],[9],[10]。异常现象通常被归因于正常行为、活动、外观或模式的偏离。因此,异常检测中常用的方法是训练单类分类器,该分类器可以使用仅有的正常训练样本来学习频繁出现的模式和外观[9],[11],[12],[13],[14],[15],[16],[17],[18],[19],[20]。任何偏离所学正常表示的示例都会被视为异常。单类分类方法的一个缺点是训练数据的有限性,无法捕捉到所有正常情况的变化[21]。因此,未见过的正常活动的出现可能会显著偏离所学表示,并被标记为异常,从而导致误报数量增加[20]。近年来,弱监督学习算法[22],[23],[24],[25],[26],[27],[28]逐渐流行起来,提出了一种不同的异常检测方法,即使用正常数据和弱标记异常数据训练二元分类器[9],[29]。特别是对于基于视频的异常事件检测,如果视频中某些内容是异常的,则该视频被标记为异常;如果所有内容都是正常的,则被标记为正常。这意味着被标记为异常的视频可能也包含大量正常帧。弱监督算法消除了对时间或空间标注的需求,大大减少了获取训练样本手动细粒度标注的高昂成本。

最近,Sultani等人将弱监督异常检测任务表述为多实例学习(MIL)问题[9]。他们将视频视为一个由多个片段组成的袋子,每个片段由若干连续帧组成。然后,通过计算异常袋和正常袋中得分最高的两个片段之间的排名损失,使用视频级注释进行训练。尽管这是一个优雅的方法,但它在整个数据集中使用相同数量的片段来表示每个视频,这可能会导致信息丢失。具体来说,在一个长视频中,如果异常事件发生在一个短的时间范围内,这种刚性表述可能会使检测变得非常困难。更最近,Zhong等人提出了在噪声标签下进行弱监督异常检测的方法,其中噪声是指异常视频中的正常内容[29]。尽管他们的方法表现出优越的性能,但由于使用来自同一视频的连续批次进行训练,容易导致数据相关性。在使用固定摄像机录制的视频中,大多数帧几乎包含相同的内容,导致强烈的相关性。许多现有工作报告了由于训练数据相关性而导致深度网络学习性能下降的问题[30],[31],[32]。

在当前的工作中,我们提出通过使用基于批次的训练架构来去相关训练数据,其中每个批次由视频的几个时间上连续的片段组成。一个较长的视频可以被划分为多个批次。在每次训练迭代中,从整个训练数据集中随机选择一个批次,以消除批次间的相关性。需要注意的是,批次内的时间一致性仍然保留,这是进行所提出的弱监督训练所必需的。对所提出的随机批次选择方法进行了广泛评估,结果表明,与先前提出的使用时间相关批次的方法相比,它显著提高了性能[9],[29]。

检测长时间未剪辑视频中的异常自然会引发我们应该关注哪个部分的问题,因为在大多数情况下,异常场景的特征与大部分正常数据有显著不同。因此,注意力机制可能会帮助我们的模型检测异常事件。然而,由于传统的注意力机制用于突出与训练数据的类别注释对应的重要特征[33],[34],[35],[36],它们的应用主要限于完全监督的情景。鉴于我们的方法具有弱监督的性质,并且在训练数据中有大量可用的正常片段,我们将注意力机制设定为抑制对应于正常事件的特征,而不是突出它们。为此,我们提出了一种在整个批次上运行的正常性抑制机制,学习抑制对应于正常内容的特征。我们的公式基于这样的直觉:正常视频只包含正常内容,而异常视频除了正常内容还包含一些异常内容。因此,从训练的角度来看,基于来自异常视频的相对少量噪声数据学习突出异常部分是不可行的。相比之下,学习抑制正常性会更容易,并且有相对大量的无噪声正常数据作为支持。因此,在输入异常视频的情况下,所提出的抑制机制通过最小化输入中正常内容的影响,间接地突出异常区域。在输入视频只包含正常内容的情况下,抑制作用遍及整个批次,从而迫使主干网络生成对正常内容期望的较低分数。这种抑制方法显示出比传统的突出注意力机制更好的性能,如在第四节进一步解释的那样。

受聚类技术在半监督训练中使用的启发[37], [38], [39],我们也提出结合基于无监督聚类的损失。由于标记为异常的视频也可能包含正常片段,且异常检测本质上是一个二分类问题,我们通过将每个视频的片段分为两个聚类来制定损失。在连续的训练迭代中,这种损失鼓励网络最大化标记为异常的视频中两个聚类之间的距离。然而,对于正常视频,由于两个聚类都应该属于正常类,该损失鼓励网络最小化这两个聚类之间的距离。此外,制定的损失还尝试在连续迭代中减少每个聚类的扩散。结果,所提出的聚类损失强制网络生成有区别的表示,提高了我们系统的异常检测性能。需要注意的是,尽管我们提出的整体方法是为异常检测应用所演示的,它也可以调整和扩展到其他计算机视觉问题,如动作定位[40], [41] 和对象定位[42], [43],在弱监督的情境下。

目前工作的主要贡献如下:

  • 仅使用视频级注释,提出的聚类辅助弱监督 (CLAWS Net+) 框架被训练以弱监督方式定位异常事件。
  • 我们通过使用一种简单而有效的随机批选择方案来减少批间相关性,以提高所提出框架的性能。
  • 我们提出的正常性抑制机制通过利用批次中的时间信息来学习抑制输入中正常片段的特征。
  • 我们制定了一种基于聚类的损失函数,该函数强制网络最小化来自正常视频的聚类之间的距离,同时最大化来自异常视频的聚类之间的距离,并且同时增加每个聚类的紧凑性。
  • 我们提出的CLAWS Net+框架在UCF-Crime [9]、ShanghaiTech [10] 和 UCSD-Ped2 [44] 数据集上展示了改进的帧级AUC性能,分别达到84.16%、91.46%和95.79%,超越了现有的最先进方法 [29]、[45]、[20]、[9]。

这项工作的初步版本近期在2020年欧洲计算机视觉会议(ECCV)上以CLAWS Net [46] 的形式展示。当前的工作CLAWS Net+是对会议版本的实质性扩展。首先,我们通过重新定义聚类损失函数以纳入聚类紧凑性,扩展了利用聚类来辅助网络训练的思路。其次,我们使用两种不同的特征提取器 [47]、[48] 评估系统性能。第三,我们将评估范围扩展到三个数据集,包括将UCSD-Ped2纳入实验。第四,我们提供了对所提出的异常检测系统的扩展分析,并讨论了各种设计选择。

论文的其余部分组织如下:第二部分讨论了相关工作,第三部分描述了提出的CLAWS Net+框架,第四部分进行实验,最后在第五部分提供了结论。

II. RELATED WORK

在本节中,我们讨论了两类流行的异常检测方法,包括一类分类和弱监督二分类。此外,我们还回顾了使用聚类作为监督信息的方法以及使用注意力机制来提升性能的方法。

A. Anomaly Detection as One Class Classification (OCC)

最流行的异常检测范式之一是仅学习正常样本的表示,然后在测试时,将偏离学习到的正常行为的数据实例视为异常。在这一类别中,研究人员已经实验了使用手工挑选的特征 [49], [50], [51], [52], [53] 和通过预训练模型提取的深度特征 [17], [19]。随着生成架构的流行,许多研究人员提出使用生成网络以无监督的方式学习正常性定义 [54], [55], [56], [57], [58], [59], [60], [16], [61]。这些方法依赖于生成架构不能很好地重建超出学习分布的实例的假设,因此在异常情况下可能产生较高的重建误差。然而,由于仅使用正常类数据进行训练,确保一个有效的分类边界以包围正常数据并排除异常数据是困难的 [62]。为了解决这个问题,一些研究人员最近提出了伪监督方法的概念,其中使用正常训练数据创建伪异常实例 [62], [57]。尽管这种设置将训练转变为二分类问题,但整体训练仍然只使用正常训练数据,因此仍属于一类分类(OCC)范畴。与此不同的是,我们的当前工作显著不同于这些方法,因为我们不使用一类训练协议。相反,我们利用弱标注的异常和正常视频来训练我们的架构。

B. Anomaly Detection as Weakly Supervised Learning

这一类别的方法利用噪声或部分标注来对图像数据集进行训练 [24], [63], [64], [65], [66], [67], [68], [69]。在这些方法中,通常会应用损失修正 [67] 或专门训练模型以分离噪声标注的数据 [63], [65]。本工作的核心不同在于我们旨在处理需要时间顺序帧序列的视频级异常。

最近,也提出了弱监督的动作定位方法 [40], [41], [70]。尽管这些方法的基础问题与监控视频中的时间异常定位有些相似,但所面临的挑战却相当不同。例如,[40] 使用单帧的动作类别标注来进行弱监督训练。此外,动作识别数据集通常假设在特定类别中有频繁出现的动作帧。而异常则通常被认为是罕见事件。此外,异常检测方法通常识别异常与正常状态,而不会进一步对这些事件进行分类。

本工作与我们方法密切相关的现有研究是 Sultani 等 [9] 和 Zhong 等 [29] 的工作,这些研究也旨在使用视频级注释进行异常检测。Sultani 等 [9] 将弱监督训练形式化为多实例学习(MIL)问题,将视频视为压缩的段袋。为进行训练,利用来自异常袋和正常袋的几个高异常评分段来计算排名损失。在每次训练迭代中,使用多个这样的袋对进行训练。Zhong 等 [29] 采用图卷积神经网络来清理异常视频中的噪声标签。多个连续的训练步骤使用一个完整的训练视频。因此,很难避免视频段中的固有相关性。相反,我们提出了一种基于批次的训练机制,其中每个批次来自不同的视频。此外,我们还提出了一种正常性抑制机制,该机制利用无噪声的正常训练数据来学习抑制视频中的正常部分。我们还利用无监督聚类进行有效的噪声清理,这通过鼓励在异常视频的情况下生成远离的簇,并在正常视频的情况下生成接近的簇,来提高所提出框架的异常检测性能。

C. Clustering as Supervision

近年来,使用无监督聚类算法来辅助神经网络训练的想法变得越来越流行。Caron 等 [71] 提出了使用聚类标签作为监督信号来预训练深度网络的想法。最近,Jain 等 [72] 提出了利用聚类生成的伪标签来训练动作分类器。这些方法遵循了自监督学习的协议,其中初始训练是使用基于聚类的伪标签进行的,之后的微调则使用实际标签进行。Yuan 等 [73] 最近提出了一种基于自监督的跟踪方法。另一种最近的方法由 Zaheer 等 [74] 提出,他们尝试通过使用聚类生成的标签来定位视频中的异常部分。然而,直接使用基于聚类的标签作为监督的缺点在于,性能在很大程度上依赖于聚类算法的质量。因此,没有任何特定的监督,收敛性无法保证。相比之下,在我们的方法中,我们提出了利用无监督聚类算法来计算我们制定的聚类损失,从而辅助我们完整框架的端到端联合训练。

D. Normalcy Suppression

我们架构中使用的正常性抑制可以看作是注意力机制的一种变体 [33], [34], [35], [36]。然而,由于现实世界中异常情况的稀有发生,我们将问题转化为抑制特征,这与传统的注意力机制强调特征相反 [34], [35], [36]。具体来说,我们在设计解决方案时考虑了噪声-free 丰富正常视频注释的可用性。因此,与传统的注意力机制利用特征的加权线性组合不同,我们的方法通过将特征与抑制分数进行逐元素相乘来抑制输入中属于正常部分的特征。

III. PROPOSED CLAWS NET+ ARCHITECTURE

在这里插入图片描述

图 1: CLAWS Net+:提出的弱监督异常检测框架,使用视频级标签。 (a) 每个输入视频被划分为相等长度的段。 (b) 和 ( c) 对每个视频段提取特征向量。 (d) 特征向量被按时间顺序排列成批。 (e) 训练时,批次被随机选择。 (f) 主干网络模块包括 FC 模块-1 和模块-2。 (g) 和 (h) 正常cy抑制模块包括正常cy抑制模块 NSM-1 和 NSM-2。 (i) 聚类损失模块,其中使用无监督方式创建的两个聚类计算损失。

在本节中,我们将介绍提议的CLAWS Net+。该模型的各个组成部分如图1所示,讨论如下:

A. Training Data Organization Block

在此模块中,输入视频被划分为若干段,使用预训练的特征提取器提取这些段的特征。然后,这些特征被排列成批次,并通过随机批次选择器将随机选择的批次输入到主干网络中。这些步骤如图 1 (a)-(e) 所示。

1) Video Segment Formation:给定一个包含 n n n个视频的训练数据集,每个视频 V i V_i Vi被划分为 m i m_i mi个不重叠的段 S ( i , j ) S_{(i,j)} S(i,j),每个段包含 p p p帧,其中 i ∈ [ 1 , n ] i \in [1, n] i[1,n] 是视频索引, j ∈ [ 1 , m i ] j \in [1, m_i] j[1,mi]是段索引(图 1(a))。段的大小 p p p 在数据集中的所有训练和测试视频中保持一致。

2) Feature Extraction:对于每个段 S ( i , j ) S_{(i,j)} S(i,j),计算特征向量 f ( i , j ) ∈ R d \mathbf{f}_{(i,j)}\in\mathbb{R}^d f(i,j)Rd,其中 f ( i , j ) = E ( S ( i , j ) ) \mathbf{f}_{(i,j)} = \mathcal{E}(S_{(i,j)}) f(i,j)=E(S(i,j)),使用特征提取器 E ( ⋅ ) \mathcal{E}(\cdot) E()。在当前工作中,我们使用了两个不同的特征提取器,包括 Tran 等人提出的 C3D [47] 和 Hara 等人提出的 3DResNext [48]。

3) Batch Formation:如图1c &d所示,特征向量被安排为不重叠的批次 B k B_k Bk,每个批次由 b b b 个连续的特征向量组成,使得 B k = ( f ( i , j ) , f ( i , j + 1 ) , ⋯   , f ( i , j + b − 1 ) ) ∈ R d × b B_k = (\mathbf{f}_{(i,j)}, \mathbf{f}_{(i,j+1)}, \cdots, \mathbf{f}_{(i,j+b-1)}) \in \mathbb{R}^{d \times b} Bk=(f(i,j),f(i,j+1),,f(i,j+b1))Rd×b,其中 k ∈ [ 1 , K ] k \in [1, K] k[1,K] 是批次索引, K K K 是训练数据中的批次数量。所有批次中的特征向量保持其时间顺序,如图d所示。提出的批次形成过程使我们的框架具有更多的学习实例,因为每次训练迭代使用的是视频的一小部分(批次),而不是完整的视频。对于每个视频,我们有二进制标签 { \{ {正常=0,异常=1 } \} }。由于训练的弱监督性质,每个批次从父视频继承其特征向量的标签。

4) Random Batch Selector:在现有的弱监督异常检测方法中,每次训练迭代都在一个或多个完整的视频上进行 [9],[29]。与现有方法不同,我们提出从每个视频中提取多个批次。这些批次随后被以任意顺序输入到骨干网络中,通过 Random ⁡ \operatorname{Random} Random Batch Selector(RBS)(图 1e))。这种配置的主要目的是最小化连续批次之间的相关性。我们观察到,打破连续批次之间的时间顺序会显著提高骨干网络的性能(参见第 IV 节)。

B. Backbone Network Block

所提出的骨干网络模块(BNB),如图 1 (f) 所示,包含两个全连接(FC)模块,每个模块包含一个 FC 层,后接一个 ReLU 激活函数和一个 dropout 层。在每次迭代中,RBS 将一个随机批次转发到输入层。输出层是一个 FC 层,后接一个 sigmoid 激活函数,用于预测异常评分 y ∈ R b y \in \mathbb{R}^b yRb,范围在 [0, 1] 之间。BNB 的训练使用视频级别的标签进行。因此,一个异常视频批次的标签为 y = 1 ∈ R b y = 1 \in \mathbb{R}^b y=1Rb,正常视频批次的标签为 y = 0 ∈ R b y = 0 \in \mathbb{R}^b y=0Rb,其中 1 是一个全 1 向量,0 是一个全 0 向量, b b b 是批次大小。

为了训练我们的模型,我们在每次迭代中将回归损失、时间平滑损失和时间一致性损失直接应用于 BNB 的输出。以下是对每个损失的详细讨论:

Regression Loss:所提出的 CLAWS Net+ 主要通过最小化每个特征标签的批量均方误差来进行优化,这些标签直接从视频级标签继承过来,如下所示:

在这里插入图片描述
其中, b b b 是批量大小, y l y_l yl y ^ l \hat{y}_l y^l 分别表示批量中的第 l l l 个真实标签和预测标签。

Temporal Smoothness Loss:由于视频本质上是时间上一致的,对预测的段标签施加时间一致性约束可以提高整体系统性能。在我们提出的训练数据组织模块中,由于每个批次中的特征向量是按时间顺序排列的,我们将时间平滑损失 ( L _ t s ) (\mathcal{L}\_ts) (L_ts)应用如下:

在这里插入图片描述
Sparsity Loss:由于异常事件的发生频率通常低于正常事件,对预测的异常标签施加稀疏性约束可能会提高系统的整体性能。为此,我们强制整个视频的累计异常分数相对较小。这个损失在训练过程中对每个批次进行计算,如下所示:

在这里插入图片描述

C. Normalcy Suppression Block

我们提出的正常性抑制模块(NSB)由多个正常性抑制模块(NSMs)组成,如图 1 1 1(g)-(h) 所示。每个 NSM 包含一个全连接(FC)层和一个 softmax 层。NSM 作为对完整批次的全局信息收集器,通过计算时间维度上的概率值来进行工作。根据每个输入批次中的特征向量数量 b b b 和 FC 层的维度 z z z,NSM 估计出一个大小为 b × z b \times z b×z 的概率矩阵 P \mathcal{P} P,使得该矩阵中每一列的和为 1。为了抑制输入批次中的正常性,在相应的 FC 模块中执行 FC 层输出与 P \mathcal{P} P 之间的逐元素乘法。提出的正常性抑制方法利用了所有正常标记视频在段级别上具有无噪声标签的事实,并且这些视频中不出现异常。

在训练过程中,如果输入批次是从正常标记的视频中提取的,则该批次中的所有特征都被标记为正常,BNB 旨在在整个批次中产生较低的异常分数。因此,每个 NSM 学习通过在整个输入批次中分配其概率来进一步最小化异常分数,从而补充相应的 FC 模块,并避免突出显示输入的任何部分。这种现象实现了选择逐元素配置的目的,即赋予 NSMs 更多自由度,以便在整个批次中最小化每个特征维度的值。

相反,对于从异常视频中提取的输入批次,其中每个特征都标记为异常,预期 BNB 应该在整个批次中产生高异常分数。然而,由于正常标记的批次是训练数据的一部分,BNB 被训练成能够在异常批次的正常段上产生较低的异常分数。因此,在概率方面受到 softmax 限制的情况下,NSB 学会了抑制输入批次中那些对 BNB 异常评分贡献不大的部分,从而突出显示异常部分。因此,它通过抑制异常批次中的正常段进一步补充了 BNB。NSB 的工作、重要性和有效性在第 IV-G、IV-H 和 IV-I 节中进行了讨论,并提供了不同的可视化和分析。

D. Clustering Loss Block

在这里插入图片描述

图 2: 聚类损失块(CLB):完整视频的中间特征表示被无监督地分成两个簇以计算聚类损失。此损失有助于骨干网络学习对正常和异常事件更具判别力的特征表示。

在这里插入图片描述

图 3: 聚类损失有两个作用。首先,它鼓励骨干网络在正常视频的情况下生成更接近的簇,而在异常视频的情况下生成更远的簇。其次,它鼓励网络生成更紧凑的簇。

聚类损失块(CLB)的设计旨在鼓励 BNB 学习更具区分性的正常和异常类别特征。如前所述,每个特征向量从父视频中继承其标签,无论是异常还是正常。我们假设正常标记的视频仅包含正常片段,而异常标记的视频可能包含正常片段和一些异常片段。为了处理异常视频中的误标记片段,我们提出将每个训练视频中所有片段的中间表示聚类为两个簇。基于这些簇,我们制定了一个聚类损失,结合了聚类距离和紧凑性,具体如下所述:

Clustering Loss:在每个训练周期开始时,我们通过使用视频 V i V_i Vi 所有片段的单位归一化的中间表示来计算两个簇 C i 1 C_i^1 Ci1 C i 2 C_i^2 Ci2。这些中间表示从骨干网络块的 FC-1 层提取,并使用 K-均值算法进行聚类。设 C i 1 C_i^1 Ci1 C i 2 C_i^2 Ci2 的质心分别为 c i 1 \mathbf{c}_i^1 ci1 c i 2 \mathbf{c}_i^2 ci2,则在每次训练迭代中,我们计算输入批次 B k B_k Bk 的聚类损失为:
在这里插入图片描述

其中, y = 0 \mathbf{y}=\mathbf{0} y=0 表示该批次来自正常视频,而 y = 1 \mathbf{y}=\mathbf{1} y=1 表示该批次来自异常视频。在这两种情况下,我们都使用余弦相似度来计算我们的损失。给定两个向量 v 1 \mathbf{v}_1 v1 v 2 \mathbf{v}_2 v2,它们的相似度由以下公式给出:

在这里插入图片描述
对于来自正常视频的批次,聚类损失 L c N \mathcal{L}_c^N LcN 旨在最大化每个批次段与中心点均值 c ˉ i = ( c i 1 + c i 2 ) / 2 \mathbf{\bar{c}}_i=(\mathbf{c}_i^{\mathbf{1}}+\mathbf{c}_i^{\mathbf{2}})/2 cˉi=(ci1+ci2)/2 之间的余弦相似度,其定义如下:

在这里插入图片描述

其中, g l g_l gl 是输入批次中段的单位归一化中间表示。这种配置本质上引入了对簇扩展和簇间距离的最小化,因为它试图将所有元素收敛到中心点的均值(图 3 (b))。在异常标签的视频中,我们明确地旨在增加簇间距离和簇的紧凑性。因此,对于来自异常视频的批次,聚类损失 L c A \mathcal{L}_c^A LcA 定义为聚类紧凑性损失 L c c \mathcal{L}_{cc} Lcc 和聚类距离损失 L c d \mathcal{L}_{cd} Lcd 的总和,如下所示:

在这里插入图片描述

聚类紧凑性损失 L c c \mathcal{L}_{cc} Lcc 鼓励网络生成那些能够形成较小扩展的簇的中间表示,从而减少簇内的变异。
在这里插入图片描述
其中,特征向量 ( g l 1 ) l = 1 b 1 (\mathbf{g}_l^1)_{l=1}^{b_1} (gl1)l=1b1 取自 C i 1 C_i^1 Ci1,而 ( g l 2 ) l = 1 b 2 (\mathbf{g}_l^2)_{l=1}^{b_2} (gl2)l=1b2 取自 C i 2 C_i^2 Ci2。此外,聚类距离损失 L c d \mathcal{L}_{cd} Lcd 鼓励网络生成能够形成两个明显不同簇的中间特征向量。

在这里插入图片描述

为了确保仅包含高置信度的簇成员,对于 L c c \mathcal{L}_{cc} Lcc L c d \mathcal{L}_{cd} Lcd,仅满足以下条件的特征向量被包含在 g l 1 l = 1 b 1 {\mathbf{g}l^1}{l=1}^{b_1} gl1l=1b1 g l 2 l = 1 b 2 {\mathbf{g}l^2}{l=1}^{b_2} gl2l=1b2 中: 1 − sim ( g 1 , c i 1 ) < β ( 1 − sim ( c i 1 , c i 2 ) ) 1 - \text{sim}(\mathbf{g}^1, \mathbf{c}_i^1) < \beta (1 - \text{sim}(\mathbf{c}_i^1, \mathbf{c}_i^2)) 1sim(g1,ci1)<β(1sim(ci1,ci2)) 1 − sim ( g 2 , c i 2 ) < β ( 1 − sim ( c i 1 , c i 2 ) ) 1 - \text{sim}(\mathbf{g}^2, \mathbf{c}_i^2) < \beta (1 - \text{sim}(\mathbf{c}_i^1, \mathbf{c}_i^2)) 1sim(g2,ci2)<β(1sim(ci1,ci2))其中, β \beta β 是置信度阈值。总体而言,由于聚类是在从 BNB 推断出的中间表示上进行的,基于这些损失的训练使我们的网络在表示异常方面具备更好的能力,从而提升了提出模型的异常检测性能。

需要注意的是,为了实现弱监督训练的目标,除了 K-means 之外,还有多种其他聚类选择。然而,由于由公式 (7) 到 (9) 定义的聚类损失假设聚类在欧几里得空间中是单峰的,因此 K-means 聚类是一个主要候选方案。此外,它在最近的方法中仍然非常受欢迎 [75]、[76]、[77]、[71]、[78]、[79]、[80]。

E. Training

在这里插入图片描述
其中, λ 1 \lambda_1 λ1 λ 2 \lambda_2 λ2 是权重平衡参数。

IV. EXPERIMENTS

为了评估所提出的 CLAWS Net+ 框架的性能,进行了广泛的实验,这些实验涵盖了三个视频异常检测数据集,包括 UCF-Crime [9]、ShanghaiTech [10] 和 UCSD Ped2 [44],并与现有的最先进(SOTA)方法 [20]、[45]、[9]、[74]、[81]、[29]、[46]、[82]、[83]、[84]、[85]、[86] 进行了比较。本文中报告的所有现有 SOTA 方法的结果均取自原作者的工作。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

V. CONCLUSIONS AND FUTURE WORKS

在这项工作中,提出了一个弱监督的异常事件检测系统,该系统在训练过程中仅需要视频级标签。为了训练所提出的系统,设计了一种基于批次的训练方法,这种方法不同于先前使用的全视频训练方法。一个视频可以根据其长度划分为多个批次,而一个批次由几个时间顺序排列的视频片段组成。还提出了一个随机批次选择器(RBS)来打破批次间的相关性。与骨干网络块相比,RBS 显示出了显著的性能提升。此外,还提出了一个常态抑制块,通过与骨干网络协作,抑制整体异常标记视频中对应常态事件的特征。这样的常态抑制提高了正常和异常输入区域之间的区分度。此外,为了改进异常和正常事件的表征学习,制定了一种基于聚类的损失函数,这共同提高了所提出系统更好地区分异常与正常事件的能力。对所提出的 CLAWS Net+ 在三个异常检测基准数据集(包括 UCF-Crime、ShanghaiTech 和 UCSD Ped2)上进行了评估。与现有的最先进方法的比较表明,所提出框架的性能非常优秀。

由于其在弱监督学习中的适用性,未来这项工作可以在其他计算机视觉领域进行探索,包括视频对象检测、未剪辑视频中的动作定位等。此外,无监督聚类用于弱监督训练信号的理念也可以探索用于其他类型的数据,包括图像和表格数据集。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值