【弱监督时间动作定位】Weakly-Supervised Video Anomaly Detection with Snippet Anomalous Attention 论文阅读

文章信息:
在这里插入图片描述
发表于:IEEE Transactions on Circuits and Systems for Video Technology 2024(中科院1区)

原文链接:https://ieeexplore.ieee.org/document/10381822
源码:无

Abstract

随着研究人员对包含在未剪辑视频中的异常事件的兴趣日益增加,视频异常检测成为了一个热门研究方向。在各种视频异常检测场景中,弱监督视频异常检测由于在训练阶段缺乏逐帧标签,只能依靠视频级标签作为粗略监督,因此提出了重大挑战。以往的方法试图要么以端到端方式学习判别特征,要么采用两阶段自训练策略生成片段级伪标签。然而,这两种方法都有一定的局限性:前者往往忽略了片段级的信息特征,而后者容易受到噪声的影响。为了解决上述问题,本文提出了一种用于弱监督异常检测的异常注意力机制。我们的方法在没有伪标签监督的情况下,考虑了片段级编码特征。具体来说,我们的方法首先生成片段级异常注意力,然后将其与原始异常分数一起输入到多分支监督模块中。该模块学习视频的不同区域,包括检测困难的区域,并辅助注意力优化。在基准数据集XDViolence和UCF-Crime上的实验验证了我们方法的有效性。此外,得益于所提出的片段级注意力机制,我们获得了更精确的异常定位。

I. INTRODUCTION

在这里插入图片描述

图 1. 与现有方法的比较。N 指正常帧,A 指异常帧。帧“■”首先处理成片段级特征“•”。在一阶段方法(a)中,正常和异常特征直接通过特征幅度进行聚类或选择。在(b)中,额外的记忆库用于增强原始特征。而在(c)中,首先生成困难伪标签 0 或 1,然后用于指导片段级监督。标签通过第二阶段进行精化。在我们的方法(d)中,首先生成片段级异常软注意力,然后与一般预测分数一起,输入到多分支监督模块中。

视频异常检测(VAD)是分析未修剪视频中的活动的一项重要任务,旨在检测视频帧或片段中的异常事件。

无监督VAD由于其能够在不需要额外注释的情况下检测异常而获得了研究人员的极大关注[1]-[7],[33]。然而,这些方法在训练阶段只能访问正常视频,导致对异常数据的理解有限。因此,无监督的VAD方法通常表现出较高的误报率为以前看不见的正常事件。为了解决在无监督设置中对视频异常的不正确识别,考虑了更实际的场景,其中仅视频级别标签可用,即,弱标记的异常或正常训练视频。针对这种情况,论文[8]首次提出了弱监督异常检测(WS-VAD)。与无监督管道相比,WS-VAD范式在检测性能和手动注释成本之间提供了更好的权衡。

在弱监督视频异常检测(WS-VAD)领域,已经提出了多种方法来充分利用这些弱注释,并且现有方法可以根据生成最终异常预测的步骤大致分为两类:基于多实例学习(MIL)的一阶段方法 [8]-[14],[27],[34],[35] 和两阶段自训练方法 [15]-[18]。对于一阶段方法,其关键思想是选择具有代表性的异常和正常特征,然后使用这些片段的得分进行最终的视频级分类。如图1 (a) 所示,[11],[27]中应用了基于特征幅度的top-k选择,而在[22]中提出了一种基于聚类距离的损失来产生更好的异常表示。在[13],[14]中,额外的记忆模块被用来增强原始特征,以学习判别特征,如图(b)所示。至于两阶段方法,在[15],[17]中,片段级伪标签在第一阶段生成,然后在第二阶段通过反向传播过程进行优化,如图©所示。

尽管之前的一阶段方法已经取得了不错的性能,但它们在片段级特征理解上仍然存在局限性。这些方法往往只关注代表性片段,导致在选择过程中有价值的特征被忽略,这种偏向性会导致异常周围的正常片段被高度误分类。此外,如果在初始训练阶段选择的实例是错误的,错误将会累积并导致糟糕的预测。此外,引入记忆模块并更新它不可避免地会消耗时间和资源。两阶段方法试图通过生成片段级伪标签来解决这个问题。但伪标签是监督的强烈提示,包含很多噪声,因此也会导致不满意的表现。

为了应对上述问题,我们的方法首先结合了一个时间嵌入单元来建模整个视频,该单元聚合了局部和全局信息。此外,我们采用了一种软注意力机制来处理弱监督视频异常检测(WSVAD)任务。具体而言,生成时间维度上的异常注意力,以充分利用中间片段级嵌入并以软方式指导监督过程。此外,由于某些异常事件与正常事件的区别微小或者只占据少量帧,因此很难被区分,这促使我们提出了一个多分支监督模块,即通用监督、基于注意力的监督、通用抑制和基于注意力的抑制监督,以探索异常的完整性并检测难以发现的异常区域。因此,可以获得一个更为鲁棒的异常检测模型。

以前的一些WS-VAD方法已经引入了注意力机制,例如[9]和[10],但我们的方法在几个方面与它们不同。具体而言,这两种方法都添加了与主要分类器分支结构相似的注意力分支,而我们的注意力单元则与分类器分支完全不同。在[9]中,注意力分支的输出试图捕捉整个视频的总异常评分,而在[10]中,两个分支的异常评分被简单地平均后用于最终的视频分类。与这些方法不同,我们的注意力机制是类别无关且异常特定的。此外,我们的注意力在每个片段中衡量异常,并通过异常评分进行优化,而不是通过视频级标签进行优化。

综上所述,本文的主要贡献如下:

  • 我们引入了一种基于片段级注意力机制的方法,使用中间嵌入来考虑它们包含更多的语义信息,并且有助于最终的帧级异常检测任务。该注意力机制是异常特定的,并且不是通过视频级注释优化的,而是通过异常预测进行优化的。
  • 在软性异常注意力的帮助下,我们提出了一个多分支监督模块,以更好地探索整个视频中的难检测异常部分。同时,可以实现异常事件的完整性和定位的准确性。
  • 为了验证我们的方法,我们在两个基准数据集 UCF-Crime 和 XD-Violence 上进行了实验,结果表明我们的方法达到了最先进的性能,验证了其有效性。

II. RELATED WORK

A. Weakly-supervised Anomaly Detection

在标签有限的情况下,WS-VAD 的目标是生成最终的帧级异常分数。如前所述,以前的 WS-VAD 方法大致可以分为两类:基于多实例学习 (MIL) 的单阶段方法和两阶段自我训练方法。

关于单阶段方法,[8] 是第一个将 MIL 框架引入 WS-VAD 的研究。此外,在 [8] 中,使用了铰链损失,并强制异常实例的异常分数大于正常实例的分数。随后,[11] 指出 WS-VAD 受到主要负面实例的偏见,特别是当异常事件与正常事件有微小差异时。然后他们训练了一个特征幅度学习函数,以有效识别正实例。在 [27] 中,作者指出,用特征幅度来表示异常程度通常会忽略场景变化的影响,因此提出了一种特征放大机制和幅度对比损失,以增强特征的辨别力以检测异常。类似于无监督异常检测方法,内存模块被引入到 [13] 和 [14] 中,这些模块可以存储代表性模式。前者将各种正常特征编码为原型,然后构建基于相似性的分类器。后者使用两个内存库,一个用于存储代表性的异常模式,另一个用于存储正常模式。

在两阶段自训练方法的情况下,[15] 引入了一个多实例伪标签生成器和一个自引导注意力增强的特征编码器,以细化任务特定的表示。在 [16] 中,提出了一种基于多序列学习(MSL)的自训练策略,该策略逐步细化异常分数。此外,[17] 介绍了一个多头分类模块和一个迭代不确定性伪标签细化策略。

B. Weakly-supervised Temporal Action Localization

弱监督时序动作定位是一种高效的方法,用于理解 [42] 实例中的人类动作,而无需大量标注。一些研究 [45],[46] 也使用了多实例学习(MIL)框架,并主要依赖于在片段级别汇总类别分数来生成视频级预测,这与 WS-VAD 领域中通常使用的策略类似。而其他研究如 [36]–[39],[41],[44] 将背景帧视为辅助类别,然后在片段级别利用互补学习方案或过滤无关信息方案以确保精确的定位准确性。我们的工作主要受到广泛应用于 WS-TAL 任务中的片段级关注的启发,但在几个方面与其不同。首先,在 WS-TAL 中,任何视频都包含动作帧和背景帧,背景事件通常被视为辅助类别。相反,在 WS-TAD 中,正常子集仅包含正常事件。其次,WS-TAL 是一个多标签分类任务,最终结果是每个类别的概率,包括背景类别。另一方面,WS-TAD 是一个回归任务,生成精确的异常分数作为最终结果。最后,在 WS-TAL 中,类别数量是已知的,给定标签是所有视频中出现的确切动作类别,而在 WS-TAD 中,异常是多样的且类别未知。因此,尽管我们的工作从 WS-TAL 中获得了灵感,但动作时序定位和异常检测是显著不同的任务。

III. METHODS

在这里插入图片描述

图 2. 提出的方法由三个主要模块组成:时间嵌入单元、异常注意力单元和多分支监督模块。第一个模块负责编码特征,而第二个模块专注于检测片段级异常和生成注意力。第三个模块旨在建模异常的完整性。为了生成异常注意力,设计了一个优化过程(图中的虚线)。

A. Problem Formulation

在遵循 MIL 步骤后,我们将 WS-VAD 问题公式化如下:设正常视频为 V n = { v i n } i = 1 N V^n = \{v_i^n\}_{i=1}^N Vn={vin}i=1N 和异常视频为 V a = { v i a } i = 1 N V^a = \{v_i^a\}_{i=1}^N Va={via}i=1N。每个异常视频为一个袋子 Y a = 1 Y_a = 1 Ya=1,包含至少一个异常实例,而正常视频标记为 Y n = 0 Y_n = 0 Yn=0,仅包含正常实例。WS-VAD 的目标是学习一个函数,该函数能够为每个视频的片段 v i v_i vi 分配异常分数。为了实现这一目标,我们首先使用预训练权重提取特征,然后对提取的特征进行处理。在本文中,为了确保与先前方法的一致性,我们从包含16帧的非重叠视频段中提取片段级别的外观模态(RGB)特征,使用在 Kinetics 数据集 [47] 上预训练的 I3D [29] 网络作为骨干。每个片段的特征为1024维。对于包含 T T T 个片段的第 i i i个视频,我们用矩阵张量 X i R G B ∈ R T × D X_i^{RGB} \in \mathbb{R}^{T \times D} XiRGBRT×D (简称 X ∈ R T × D X \in \mathbb{R}^{T \times D} XRT×D)表示 RGB 特征,其中 D D D 表示特征向量的维度。

B. Temporal Embedding Unit

异常可能在短期内或较长时间内发生,因此在WS-VAD任务中应考虑局部和全局时间依赖性。为了解决这个问题,我们引入了一个具有两个分支的时间编码单元:一个用于捕捉局部依赖性,另一个用于捕捉全局依赖性。

给定特征 F ∈ R T × D F \in \mathbb{R}^{T \times D} FRT×D,在全局分支中,我们简单地引入了 [19] 中提出的非局部块:

在这里插入图片描述

其中, ψ \psi ψ 表示一维非局部操作, F g ∈ R T × D 4 F_g \in \mathbb{R}^{T \times \frac{D}{4}} FgRT×4D。至于局部分支,为了获取不同时间尺度的局部依赖性,分别使用了膨胀率为(1,2,4)的一维卷积操作:

在这里插入图片描述

其中, ϕ \phi ϕ 表示膨胀卷积, F l i = 1 3 ∈ R T × D 4 F_{l_{i=1}^3} \in \mathbb{R}^{T \times \frac{D}{4}} Fli=13RT×4D

然后在特征维度上将 F l F_l Fl F g F_g Fg进行拼接,得到 F ∗ ∈ R T × D F^* \in \mathbb{R}^{T \times D} FRT×D。随后在 $ F^*$上应用一个时间卷积层来聚合特征。最后,通过残差连接,将原始特征 F F F F ∗ F^* F通过加法操作简单融合,获得增强特征 F e F_e Fe。由于这种时间嵌入单元在其他 WSVAD 方法中也被广泛使用 [11],[18],[40],因此我们在消融实验中简要说明并将其用作我们的基线。

C. Anomalous Attention Unit

单个片段周围的信息至关重要,有助于更细粒度地检测异常。为了解决多实例学习(MIL)流程中中间特征未被充分利用的问题,我们提出了一种片段级别的异常注意机制。

具体来说,在获得增强特征后,首先采用时间卷积层(TC)来充分捕捉通道间的依赖性,并注入来自邻近片段的局部上下文。然后,为了避免在整个训练过程中某些信息未被激活并充分利用语义信息,引入了 LeakyReLU 激活函数(LR),因为它可以生成负值。因此,一个基本的注意单元可以公式化为:

其中, F e ( l − 1 ) F_e^{(l-1)} Fe(l1)表示第 ( l − 1 ) (l-1) (l1) 个基本单元的特征输出,整个注意单元是这些基本单元的堆叠。最终 TC 层的特征维度为 1,即 F ∈ R T × 1 F \in \mathbb{R}^{T \times 1} FRT×1。然后使用 sigmoid 函数来获得归一化的异常注意 A ∈ R T × 1 A \in \mathbb{R}^{T \times 1} ART×1。这种设置使我们的方法能够使用注意力归一化项来获得高置信度的片段。

D. Multi-branch Supervision Module

在这里插入图片描述

图 3. 多分支监督模块。特征输入到分类器 C,同时直接用于生成片段级异常注意力 A。最具区分性的部分将被抑制(橙色),而困难的异常片段将得到更多关注。

多实例学习(MIL)广泛被认为 [16], [17], [48] 会受到大量误报的困扰,这些误报是由于片段级检测器对具有简单上下文的异常片段存在偏差所导致的。因此,直观地,如果减少对最具区分性的片段的关注,我们可能有效地探索异常和挑战性片段的完整性。考虑到最具区分性的片段可能包含当前视频的关键背景信息,我们的初步尝试是对这个区分片段分配较低的注意力并保留上下文信息,但未能获得令人满意的结果(详见实验部分)。然后,我们发现直接去除最具区分性的片段可以显著提升整体检测性能。因此,结合增强特征 F e F_e Fe 和异常注意 A A A,设计了一个多分支监督模块,如图 3 所示。

原始异常分数直接从具有三层 MLP 的分类器中获得,节点数分别为 512、128 和 1。每层之后都跟有 ReLU 激活函数和 dropout 函数。我们将原始异常分数表示为 S o S^o So。然后,可以通过逐元素相乘得到基于注意力的异常分数 S a S^a Sa

在这里插入图片描述

通过在 S a S^a Sa 中使用注意力 A A A,仅考虑异常活动,正常事件被抑制。

为了避免训练过程被具有区分性的片段主导并更好地学习整个视频,我们计算了抑制后的原始异常分数 S s o S^{so} Sso 和抑制后的基于注意力的异常分数 S s a S^{sa} Ssa。具体来说:

在这里插入图片描述

其中, i ∈ ( 1 , N ) i \in (1, N) i(1,N) 表示第 i i i 个视频, j ∈ ( 1 , T ) j \in (1, T) j(1,T) 表示当前序列中的第 j j j 个片段。此外, θ \theta θ是一个浮动值,基于当前 A i A_i Ai序列的最大值和最小值。

在这里插入图片描述

ϵ \epsilon ϵ 是一个抑制率。处理 θ \theta θ 的原因是异常情况多种多样,一些不明显的异常可能会获得较低的异常注意。因此,使用固定参数作为阈值是不可靠的。最后,对于异常分数 S s a S^{sa} Ssa,其处理方式类似于 S s o S^{so} Sso

在这里插入图片描述

其中, θ i \theta_i θi的值等于公式(6)中的值。

E. Optimizing Process

1) Constraints on Attention:我们希望注意力是特定于异常的,因此异常注意力的分布应与最终的异常分数相似。对于标签为 Y n = 0 Y_n = 0 Yn=0 的负袋,可以定义指导损失为:
在这里插入图片描述

其中, δ \delta δ表示一个相似度度量函数,我们使用均方误差(MSE)。 { 0 ⋯ 0 } \{0 \cdots 0\} {00} 表示一个仅包含 0 的序列,其大小与 A neg A_{\text{neg}} Aneg 相同。

由于在初始训练阶段缺乏可靠的预测,对于标签为 Y a = 1 Y_a = 1 Ya=1的正袋,该袋包含正常实例和异常实例,指导损失为:

在这里插入图片描述

其中, M M M 表示训练迭代的次数,序列 { 0 , 1 , 1 , ⋯   , 1 , 0 } \{0, 1, 1, \cdots, 1, 0\} {0,1,1,,1,0}可以通过以下方式获得:

在这里插入图片描述

此外,由于异常情况较为稀疏,我们还使用归一化损失 L n o r m L_{norm} Lnorm 来使注意力更加极化:

在这里插入图片描述
2) Constraints on Video-level Supervision:我们对 S o S^o So S a S^a Sa S s o S^{so} Sso S s a S^{sa} Ssa应用广泛使用的二分类损失:

在这里插入图片描述
其中η是二元交叉熵损失,并且:

在这里插入图片描述

F. Network Training and Testing

1) Training.:相同数量的正常视频和异常视频被组合成一个批次并输入到我们的模型中。同时,我们还引入了时间平滑性和稀疏性约束项,这些约束在其他 WSVAD 方法中也常被使用,定义如下:

在这里插入图片描述

其中 L s m L_{sm} Lsm L s p L_{sp} Lsp仅应用于 S o S^o So S a S^a Sa分支。最终的训练过程损失为:

在这里插入图片描述

2) Testing.:测试视频被输入到我们的网络中,最终预测的计算公式如下:

在这里插入图片描述
最后,将片段标签分配给帧级别。

IV. EXPERIMENTS

在这里插入图片描述

在这里插入图片描述

VI. CONCLUSION

在本文中,我们提出了一种考虑片段级编码特征的方法。具体来说,在对原始特征进行全局和局部建模后,引入了一种注意力机制。然后,结合片段异常注意力,提出了一个多分支监督模块,其中不仅利用了常规预测分数,还利用了基于注意力的预测。此外,我们还抑制了最具区分性的片段,以便学习视频中的困难部分并探索异常的完整性。最后,为了更好地生成异常注意力,提供了一个包含归一化和指导项的优化过程。通过上述组件的结合,我们的方法在两个大型基准数据集上达到了最先进的性能。

阅读总结

大杂烩,没啥新意。、

这里怎么突然冒出一个WS-TAD来了?

在这里插入图片描述

  • 8
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值