【视频异常检测】Weakly-supervised Video Anomaly Detection with Robust Temporal Feature Magnitude ... 论文阅读

文章信息:
在这里插入图片描述
发表于:ICCV 2021

原文链接:https://arxiv.org/abs/2101.10030
源码链接:https://github.com/tianyu0207/RTFM

Abstract

异常检测与弱监督的视频级标签通常被构建为多实例学习(MIL)问题,其目标是识别包含异常事件的片段,每个视频被表示为一袋视频片段。尽管当前的方法在检测性能上表现有效,但它们对正实例的识别,即异常视频中的罕见异常片段,往往受主导负实例的影响,特别是当异常事件是与正常事件相比仅存在小差异的微妙异常时。这个问题在许多忽略重要视频时序依赖关系的方法中被进一步恶化。为了解决这个问题,我们引入了一种新颖且在理论上可靠的方法,名为Robust Temporal Feature Magnitude learning(RTFM),该方法训练一个特征幅度学习函数,以有效识别正实例,显著提高了MIL方法对来自异常视频的负实例的鲁棒性。RTFM还采用了扩张卷积和自注意机制来捕捉长程和短程的时间依赖关系,以更忠实地学习特征幅度。大量实验证明,RTFM启用的MIL模型(i)在四个基准数据集(ShanghaiTech、UCF-Crime、XD-Violence和UCSD-Peds)上大幅优于几种最先进的方法,并且(ii)实现了显著改善的微妙异常辨识能力和样本效率。

1. Introduction

视频异常检测已经得到了深入研究,因为它有潜在的应用于自主监控系统的可能性[15, 57, 67, 79]。视频异常检测的目标是识别异常事件发生的时间窗口 - 在监控的背景下,异常的例子包括欺凌、店铺盗窃、暴力等。尽管在这个背景下已经探索了仅使用正常视频训练的一类分类器(OCCs,也称为无监督异常检测)[15,17,28,31,47,48,77],但表现最佳的方法是利用弱监督设置,使用带有正常或异常视频级标签注释的训练样本[57,67,79]。这种弱监督设置旨在通过相对较小的人工注释工作量,实现更好的异常分类准确性,与OCC方法相比。

弱监督异常检测的一个主要挑战是如何从整个标记为异常的视频中识别异常片段。这是由于两个原因,即:

  1. 异常视频中的大多数片段由正常事件组成,这可能会淹没训练过程并使得少数异常片段的拟合变得困难;和
  2. 异常片段可能与正常片段的差异不足,使得正常和异常片段之间的清晰分离变得具有挑战性。

通过使用多实例学习(MIL)方法进行训练的异常检测[57,67,75,81]通过在训练集中平衡相同数量的异常和正常片段来缓解上述问题,其中正常片段是从正常视频中随机选择的,而异常片段是从异常视频中具有最高异常分数的片段。尽管在一定程度上解决了上述问题,但MIL引入了四个问题:

  1. 异常视频中的最高异常分数可能不来自异常片段;
  2. 从正常视频中随机选择的正常片段可能相对容易拟合,这会挑战训练的收敛性;
  3. 如果视频有多个异常片段,我们错过了进行更有效的训练过程的机会,其中每个视频包含更多的异常片段;和
  4. 使用分类分数提供了一个弱的训练信号,不一定能够实现正常和异常片段之间的良好分离。在忽略重要时间依赖性的方法中,这些问题甚至更加严重[28, 31, 67, 79]。

为解决上述的多实例学习(MIL)问题,我们提出了一种新颖的方法,称为Robust Temporal Feature Magnitude(RTFM)学习。在RTFM中,我们依赖于视频片段的时间特征幅度,其中具有低幅度的特征表示正常(即负面)片段,而具有高幅度的特征表示异常(即正面)片段。RTFM在理论上受到了top-k实例MIL [25]的启发,该方法使用来自异常和正常视频的前k个分类得分最高的实例训练分类器,但在我们的公式中,我们假设异常片段的平均特征幅度大于正常片段的平均特征幅度,而不是假设异常和正常片段的分类得分之间有可分性 [25]。RTFM通过以下方式解决了MIL的问题:

  1. 从异常视频中选择异常片段的概率增加;
  2. 从正常视频中选择的难负样本将更难拟合,提高了训练的收敛性;
  3. 可以在异常视频中包含更多异常片段;和
  4. 使用特征幅度识别正实例比使用分类得分的MIL方法更有优势 [25, 57],因为它提供了一个更强的学习信号,特别是对于整个训练过程中幅度可能增加的异常片段,特征幅度学习可以与MIL异常分类一起进行联合优化,以在特征表示空间和异常分类输出空间上强制异常和正常片段之间有较大的间隔。

图1说明了RTFM的动机,显示基于其幅度的前k个特征的选择可以在存在多个异常片段且异常视频的平均片段特征幅度大于正常视频时,提供更好的异常和正常视频之间的分离效果。
在这里插入图片描述

在实践中,RTFM通过在异常和正常视频中选择具有最大幅度的前k个片段特征,确保了它们之间有很大的间隔,这具有理论保证,可以最大限度地分离异常和正常视频表示。然后,从正常和异常视频中选择的这些前k个片段特征用于训练片段分类器。为了在每个视频内无缝整合长程和短程时间依赖关系,我们结合了金字塔扩张卷积(PDC)[70]和时间自注意模块(TSA)[66]来学习长程和短程时间依赖关系。我们在四个异常检测基准数据集上验证了我们的RTFM,即ShanghaiTech [28]、UCF-Crime [57]、XD-Violence [67]和UCSD-Peds [24]。我们展示了我们的方法在所有基准上,使用不同的预训练特征(即C3D和I3D),都比当前的最先进方法表现出更好的性能。我们还展示了我们的方法比流行的MIL方法在样本效率和微妙异常区分度方面都显著更好。

2. Related Work

Unsupervised Anomaly Detection.

传统的异常检测方法假设只有正常训练数据可用,并使用手工制作的特征进行一类分类来解决这个问题[2, 33, 65, 76]。随着深度学习的出现,更近期的方法使用来自预训练深度神经网络的特征[11, 19, 41, 55, 78]。其他方法对正常流形的潜在空间施加约束,以学习紧凑的正常表示[1,3–5,8–10,13,29,32,34,42,44,50,53,58,60,64,80]。另外,一些方法依赖于使用生成模型进行数据重建,通过(对抗地)最小化重建误差来学习正常样本的表示[6, 14, 18, 28, 35–37, 42, 49, 52, 53, 62, 68, 82]。这些方法假设未见的异常视频/图像通常无法被很好地重建,并认为重建误差较高的样本是异常。然而,由于对异常性缺乏先验知识,这些方法可能对训练数据过拟合,并未能区分异常和正常事件。读者可以参考[39],了解这些异常检测方法的综合评述。

Weakly Supervised Anomaly Detection.

利用一些有标签的异常样本已经显示出比无监督方法更为显著的性能提升[27, 38, 40, 51, 57, 59, 67, 72–74]。然而,大规模的帧级别标签注释成本过高。因此,当前最先进的视频异常检测方法依赖于使用更为经济的视频级别注释进行弱监督训练。Sultani等人[57]提出了使用视频级别标签,并引入了大规模弱监督视频异常检测数据集UCF-Crime。自那时以来,这个方向引起了研究界的关注[63, 67, 75]。

弱监督视频异常检测方法主要基于多实例学习(MIL)框架[57]。然而,大多数基于MIL的方法[57, 75, 81]未能充分利用异常视频标签,因为它们可能受到正常片段误选为异常视频中的顶级异常事件而引起的正包标签的标签噪声的影响。为了解决这个问题,Zhong等人[79]将这个问题重新制定为带有噪声标签问题的二元分类,并使用图卷积神经网络(GCN)清除标签噪声。尽管这篇论文显示出比[57]更准确的结果,但GCN和MIL的训练计算成本高,可能导致无约束的潜在空间(即正常和异常特征可以位于特征空间的任何地方),从而导致性能不稳定。相比之下,我们的方法与原始的MIL公式相比计算开销微不足道。此外,我们的方法通过基于2-范数的时间特征排序损失统一了表示学习和异常分数学习,能够更好地区分正常和异常特征表示,相比之前的MIL方法[57, 63, 67, 75, 79, 81]改善了对弱标签的探索。

3. The Proposed Method: RTFM

在这里插入图片描述

我们提出的鲁棒时序特征幅度(RTFM)方法旨在利用弱标记的视频进行训练,区分异常和正常的片段。给定一组弱标记的训练视频 D D D = { ( F i , y i ) (F_i, y_i) (Fi,yi)} i = 1 ∣ D ∣ ^{|D|}_{i=1} i=1D,其中 F ∈ F ⊂ R T × D \mathbf{F} ∈\mathcal{F} ⊂ \mathbb{R}^{T×D} FFRT×D是来自T个视频片段的预计算特征(例如,I3D [7] 或 C3D [61]),维度为D,而 y ∈ Y y ∈ \mathcal{Y} yY = {0, 1}表示视频级别的标注(如果 F i \mathbf{F}_i Fi是正常视频,则 y i y_i yi = 0,否则为1)。RTFM使用的模型表示为 r θ r_θ rθ, ϕ ( F ) = f ϕ ( s θ ( F ) ) _{\phi}(\mathbf{F}) = f_{\phi}(s_θ(\mathbf{F})) ϕ(F)=fϕ(sθ(F)),返回一个T维的特征 [ 0 , 1 ] T [0, 1]^T [0,1]T,表示T个视频片段被分类为异常或正常,其中参数θ, ϕ \phi ϕ定义如下。该模型的训练包括多尺度时序特征学习、特征幅度学习以及启用RTFM的MIL分类器训练的端到端联合优化,其中损失函数如下:
在这里插入图片描述
其中, s θ s_θ sθ F \mathcal{F} F X \mathcal{X} X 是时序特征提取器(其中 X \mathcal{X} X R T × D \mathbb{R}^{T×D} RT×D), f ϕ f_\phi fϕ X → [ 0 , 1 ] T \mathcal{X} → [0, 1]^T X[0,1]T 是片段分类器, ℓ s \ell_s s(.) 表示一个损失函数,该函数最大化了正常和异常视频中前k个片段特征之间的可分性,而 ℓ f \ell_f f(.) 是用于训练片段分类器 f ϕ f\phi fϕ(.) 的损失函数,同样使用了正常和异常视频中前k个片段特征。接下来,我们将讨论我们提出的RTFM的理论动机,然后详细描述该方法。

3.1. Theoretical Motivation of RTFM

在[25]中的Top-k多实例学习(MIL)将MIL扩展到一个环境,其中正例包含最少数量的正样本,负例也包含正样本,但数量较少,并且它假设一个分类器可以分离正负样本。我们的问题不同,因为负例不包含正样本,而且我们没有进行分类可分性的假设。根据上面引入的命名法,从视频中提取的时序特征在公式(1)中用 X = s θ ( F ) \mathbf{X} = s_θ(\mathbf{F}) X=sθ(F)表示,其中片段特征由 X \mathbf{X} X的行 x t x_t xt表示。异常片段用 x + x^+ x+ P x + ( x ) P^+_x (x) Px+(x)表示,正常片段用 x − ∼ P x − ( x ) x^− ∼ P^−_x (x) xPx(x)表示。异常视频 X + \mathbf{X}^+ X+包含从 P x + ( x ) P^+_x (x) Px+(x)中抽取的µ个片段和从 P x − ( x ) P^−_x (x) Px(x)中抽取的 ( T − µ ) (T − µ) (Tµ)个片段,而正常视频 X − \mathbf{X}^− X包含从 P x − ( x ) P^−_x (x) Px(x)中抽取的所有T个片段。

为了学习一个可以将视频和片段分类为正常或异常的函数,我们定义了一个使用其幅度进行片段分类的函数(即,我们使用 ℓ 2 \ell_2 2范数计算特征幅度),而不是假设在正常和异常片段之间存在分类可分性(如[25]中所假设的)。我们做了一个较轻的假设,即 E [ ‖ x + ‖ 2 ] ≥ E [ ‖ x − ‖ 2 ] \mathbb{E}[‖x^+‖_2] ≥ \mathbb{E}[‖x^−‖_2] E[x+2]E[x2]。这意味着通过学习从 s θ ( F ) s_θ(\mathbf{F}) sθ(F)中的片段特征,使得正常片段的特征幅度小于异常片段的特征幅度,我们可以满足这一假设。为了实现这样的学习,我们依赖于对视频中前k个片段的平均特征幅度进行的基于优化的过程[25],定义如下:
在这里插入图片描述
其中, g θ , k ( . ) g_{θ,k}(.) gθ,k(.) 由参数θ参数化,表示其依赖于 s θ ( . ) s_θ(.) sθ(.) 来产生 x t x_t xt Ω k ( X ) Ω_k(\mathbf{X}) k(X) 包含来自 { x t x_t xt} t = 1 T ^T_{t=1} t=1T 的k个片段的子集, ∣ Ω k ( X ) ∣ = k |Ω_k(\mathbf{X})| = k k(X)=k。异常和正常视频之间的可分性表示为:
在这里插入图片描述

在下面的定理中,我们定义了来自 Ω k ( X + ) Ω_k(\mathbf{X}^+) k(X+) 的片段是异常的概率,即 p k + ( X + ) p^+_k (\mathbf{X}^+) pk+(X+) = m i n ( µ , k ) k + ε \frac{min(µ,k)}{k+\varepsilon} k+εmin(µ,k),其中 ε \varepsilon ε > 0,并且来自 Ω k ( X − ) Ω_k(\mathbf{X}^−) k(X) 的正常片段的概率 p k + ( X − ) p^+_k (\mathbf{X}^-) pk+(X) = 0。这个定义意味着只要 k ≤ µ k ≤ µ kµ,在 Ω k ( X + ) Ω_k(\mathbf{X}^+) k(X+) 的前 k k k 个片段中找到异常片段的可能性很大。

Theorem 3.1
(异常和正常视频之间的预期可分性)。假设 E [ ‖ x + ‖ 2 ] ≥ E [ ‖ x − ‖ 2 ] \mathbb{E}[‖x^+‖_2] ≥ \mathbb{E}[‖x^−‖_2] E[x+2]E[x2],其中 X + \mathbf{X}^+ X+ 包含 µ 个异常样本和 (T−µ) 个正常样本,其中 µ ∈ [1, T],而 X − \mathbf{X}^- X包含 T 个正常样本。设 D θ , k ( . ) D_{θ,k}(.) Dθ,k(.) 是从中抽取 (3) 中的可分性得分 d θ , k ( . ) d_{θ,k}(.) dθ,k(.) 的随机变量[25]。

因此,该定理的第一部分意味着随着我们在异常视频的前 k 个片段中包含更多样本,异常和正常视频之间的可分性趋于增加(即使它包含一些正常样本),只要 k ≤ µ k ≤ µ kµ。定理的第二部分意味着随着我们包含超过 µ µ µ 个顶部实例,由于正负样本在正包和负包中都是压倒性的,异常和正常视频的分数将变得无法区分。这两点在图1中显示,其中 s c o r e ( X ) = g θ , k ( X ) score(\mathbf{X})=g_{θ,k}(\mathbf{X}) score(X)=gθ,k(X) Δ s c o r e ( X + , X − ) = d θ , k ( X + , X − ) \Delta score(\mathbf{X}^+,\mathbf{X}^−)=d_{θ,k}(\mathbf{X}^+,\mathbf{X}^−) Δscore(X+,X)=dθ,k(X+,X),并且用于计算 p k + ( X + ) p^+_k (\mathbf{X}^+) pk+(X+) ϵ \epsilon ϵ = 0.4。这个定理表明,通过最大化来自异常和正常视频的前k个时序特征片段之间的可分性(对于 k ≤ µ k ≤ µ kµ),我们可以促进异常视频和片段的分类。它还表明,使用前 k k k个特征来训练片段分类器可以更有效地进行训练,因为异常视频中前 k k k个样本的大多数将是异常的,而我们将使用前 k k k个最难的正常片段进行平衡的训练。最后需要考虑的是,由于我们仅使用每个视频的前 k k k个样本,我们的方法在相对较小的训练样本数量下进行了高效的优化。

3.2. Multi-scale Temporal Feature Learning

受视频理解中使用的注意力技术的启发[26, 66],我们提出的多尺度时序网络(MTN)捕捉了视频片段之间的多分辨率局部时序依赖关系和全局时序依赖关系(我们在补充材料的图1中描述了MTN)。MTN使用金字塔形的扩张卷积在时间域上学习视频片段的多尺度表示。扩张卷积通常应用于空间域,其目标是在不失去分辨率的情况下扩大感受野[70]。在这里,我们提出在时间维度上使用扩张卷积,因为捕捉相邻视频片段的多尺度时序依赖关系对于异常检测是重要的。

MTN从预先计算的特征 F = [ f d ] d D = 1 \mathbf{F} = [\mathbf{f}_d]^D_d=1 F=[fd]dD=1 中学习多尺度时序特征。然后,对于给定的特征 f d ∈ R T \mathbf{f}_d ∈ \mathbb{R}^T fdRT,具有内核 W k , d ( l ) ∈ R W \mathbf{W}^{(l)}_{k,d} ∈ \mathbb{R}^W Wk,d(l)RW,其中 k ∈ 1 , . . . , D / 4 k ∈ {1, ...,D/4} k1,...,D/4 d ∈ 1 , . . . , D d ∈ {1, ...,D} d1,...,D l l l ∈ { P D C 1 , P D C 2 , P D C 3 PDC_1, PDC_2, PDC_3 PDC1,PDC2,PDC3}, W W W 表示滤波器大小的1-D扩张卷积操作被定义为:
在这里插入图片描述

其中, ∗ ( l ) ∗^{(l)} (l)表示由 l l l索引的扩张卷积算子, f k ( l ) ∈ R T \mathbf{f}^{(l)}_k ∈ \mathbb{R}^T fk(l)RT 表示在时间维度上应用扩张卷积后的输出特征。{ P D C 1 , P D C 2 , P D C 3 PDC_1, PDC_2, PDC_3 PDC1,PDC2,PDC3}的膨胀因子分别为{1, 2, 4}(这在补充材料的图1中显示)。

这段文本描述了一种用于处理视频片段的全局时间依赖性的方法,采用了自注意力模块。该模块在视频理解、图像分类和目标检测等任务中已经展现了良好的性能。受先前使用图卷积网络(GCN)来建模全局时间信息的研究启发,作者重新构建了空间自注意技术,以在时间维度上工作并捕捉全局时间上下文建模。具体而言,目标是生成一个注意力映射 M ∈ R T × T \mathbf{M} ∈ \mathbb{R}^{T×T} MRT×T,用于估计片段之间的成对相关性。其时间自注意力(TSA)模块首先使用一个 1 × 1 卷积将空间维度从 F ∈ R T × D \mathbf{F} ∈ \mathbb{R}^{T×D} FRT×D 减少到 F ( c ) \mathbf{F}^{(c)} F(c) R T × D / 4 \mathbb{R}^{T×D/4} RT×D/4,其中 F ( c ) = C o n v 1 × 1 ( F ) \mathbf{F}(c) = Conv1×1(\mathbf{F}) F(c)=Conv1×1(F)。然后,对 F ( c ) \mathbf{F}(c) F(c) 应用三个单独的 1 × 1 卷积层,产生 F ( c 1 ) , F ( c 2 ) , F ( c 3 ) ∈ R T × D / 4 \mathbf{F}^{(c1)}, \mathbf{F}^{(c2)}, \mathbf{F}^{(c3)} ∈ \mathbb{R}^{T×D/4} F(c1),F(c2),F(c3)RT×D/4,如 F ( c i ) = C o n v 1 × 1 ( F ( c ) ) F^{(ci)} = Conv1×1(F^{(c)}) F(ci)=Conv1×1(F(c)),其中 i ∈ {1, 2, 3}。注意力映射然后通过 M \mathbf{M} M = ( F ( c 1 ) ) ( F ( c 2 ) ) T ( \mathbf{F}^{(c1)}) (\mathbf{F}^{(c2)})^T (F(c1))(F(c2))T构建,进而生成 F ( c 4 ) = C o n v 1 × 1 ( M F ( c 3 ) ) \mathbf{F}^{(c4)} = Conv1×1(\mathbf{MF}^{(c3)}) F(c4)=Conv1×1(MF(c3))

在最后一个1 × 1卷积层之后添加跳过连接,如
在这里插入图片描述

MTN的输出由来自PDC(和MTN模块的输出串联而成,表示为 F ‾ = [ F ( l ) ] l ∈ L ∈ R T × D \overline{\mathbf{F}} = [\mathbf{F}^{(l)}]_{l∈\mathcal{L}} ∈ \mathbb{R}^{T×D} F=[F(l)]lLRT×D,其中 L \mathcal{L} L = { P D C 1 , P D C 2 , P D C 3 , T S A PDC1, PDC2, PDC3, TSA PDC1,PDC2,PDC3,TSA}。通过使用原始特征 F 进行跳跃连接,得到最终的时间特征表示 X = s θ ( F ) = F ‾ + F \mathbf{X} = s_θ(\mathbf{F}) = \overline{\mathbf{F}} + \mathbf{F} X=sθ(F)=F+F,其中参数 θ 包括了本节中描述的所有卷积的权重。

3.3. Feature Magnitude Learning

利用第3.1节介绍的理论,我们提出了一个损失函数来建模公式(1)中的 s θ ( F ) s_θ(\mathbf{F}) sθ(F),其中对于正常视频,最小化了前 k 个最大片段特征幅值,同时对于异常视频,最大化了前 k 个最大片段特征幅值。更具体地,我们提出了以下损失函数 ℓ s ( . ) \ell_s(.) s(.),从公式(1)出发,其目标是最大化正常和异常视频之间的可分性。

在这里插入图片描述
其中,m 是预定义的边界, X i = s θ ( F i ) \mathbf{X}_i = s_θ(\mathbf{F}_i) Xi=sθ(Fi) 是异常视频的特征(类似地,对于正常视频的特征为 X j \mathbf{X}_j Xj),而 d θ , k ( . ) d_{θ,k}(.) dθ,k(.) 表示在(3)中定义的可分性函数,它计算异常和正常视频的前 k k k 个实例的分数之间的差异,这些分数来自于在(2)中的 g θ , k ( . ) g_{θ,k}(.) gθ,k(.)

3.4. RTFM-enabled Snippet Classifier Learning

为了学习片段分类器,我们使用包含自 s θ ( F ) s_θ(\mathbf{F}) sθ(F) 中具有最大 ℓ 2 \ell_2 2-范数特征的 k 个片段的集合 Ω k ( X ) Ω_k(\mathbf{X}) k(X)进行二元交叉熵分类损失函数的训练。具体而言,公式(1)中的损失函数 ℓ f ( . ) \ell_f(.) f(.) 被定义为:
在这里插入图片描述
其中, x = s θ ( f ) x = s_θ(\mathbf{f}) x=sθ(f)。需要注意的是,根据[57]的做法,损失函数 ℓ f ( . ) \ell_f(.) f(.) 还伴随有时间平滑性和稀疏性正则化。其中,时间平滑性定义为 ( f ϕ ( s θ ( f t ) ) − f ϕ ( s θ ( f t − 1 ) ) ) 2 (f_\phi(s_θ(f_t))− f_\phi(s_θ(f_{t−1})))^2 (fϕ(sθ(ft))fϕ(sθ(ft1)))2,旨在强制相邻片段具有相似的异常分数,而稀疏性正则化定义为 ∑ t = 1 T ∣ f ϕ ( s θ ( f t ) ) ∣ \sum^T_{t=1} |f\phi(s_θ(f_t))| t=1Tfϕ(sθ(ft)),以施加在每个异常视频中异常事件是罕见的先验。

4. Experiments

我们的模型在四个多场景基准数据集上进行了评估,这些数据集是为弱监督视频异常检测任务创建的:ShanghaiTech [28],UCF-Crime [57],XDViolence [67]和UCSD-Peds [69]。

UCF-Crime是一个大规模的异常检测数据集,包含1900个未修剪的视频,来自真实世界的街道和室内监控摄像头,总时长为128小时。与上海理工大学的静态背景不同,UCF-Crime由复杂多样的背景组成。训练集和测试集包含相同数量的正常和异常视频。该数据集涵盖了1,610个具有视频级标签的训练视频和290个具有帧级标签的测试视频中的13类异常。

XD-Violence是最近提出的大规模多场景异常检测数据集,收集自真实的生活电影、在线视频、体育流媒体、监控摄像机和闭路电视[67]。该数据集的总持续时间超过217小时,包含4754个未经修剪的视频,在训练集中具有视频级标签,在测试集中具有帧级标签。它是目前最大的公开视频异常检测数据集。

ShanghaiTech是来自固定角度街道视频监控的中等规模数据集。它有13个不同的背景场景和437个视频,其中包括307个正常视频和130个异常视频。原始数据集[28]是异常检测任务的流行基准,假设正常训练数据可用。Zhong等人[79]通过选择异常测试视频的子集到训练数据中来重组数据集,以构建弱监督训练集,因此训练集和测试集都覆盖所有13个背景场景。我们使用与[79]中完全相同的过程将上海理工大学转换为弱监督设置。

UCSD-Peds是一个由两个子数据集组成的小规模数据集-Ped 1有70个视频,Peds 2有28个视频。以前的工作[16,79]通过随机选择6个异常视频和4个正常视频到训练集中,重新制定了弱监督异常检测的数据集,剩余的作为测试集。我们报告了10次以上的平均结果。

Evaluation Measure与之前的论文[14,28,57,63,75]类似,我们使用框架水平ROC曲线下面积(AUC)作为所有数据集的评估指标。此外,在[67]之后,我们还使用平均精度(AP)作为XD-Violence数据集的评估指标。AUC和AP值越大,表明性能越好。最近的一些研究[12,46]建议使用基于区域的检测标准(RBDC)和基于轨迹的检测标准(TBDC)来补充AUC测量,但这两种测量在弱监督设置中不适用。因此,我们专注于AUC和AP测量。

4.2. Implementation Details

根据[57]的方法,每个视频被划分为32个视频片段,即T = 32。在所有实验中,我们设置公式(6)中的边界m = 100,k = 3。模型(第3节)中描述的三个全连接(FC)层分别具有512、128和1个节点,每个FC层后面都跟着一个ReLU激活函数和一个丢失率为0.7的丢弃函数。从预训练的I3D [21]或C3D [20]网络的’mix 5c’和’fc 6’层分别提取了2048D和4096D的特征。在MTN中,我们将金字塔膨胀率设为1、2和4,并为每个膨胀卷积分支使用3×1的Conv1D。对于自注意块,我们使用1×1的Conv1D。

我们的RTFM方法使用Adam优化器 [22]进行端到端训练,权重衰减为0.0005,批量大小为64,训练50个epochs。学习速率在ShanghaiTech和UCF-Crime设置为0.001,在XD-Violence设置为0.0001。每个小批次包含来自32个随机选择的正常和异常视频的样本。该方法使用PyTorch [43]实现。对于所有基线模型,我们使用与我们相同骨干结构的已发布结果。为了公平比较,我们使用与[57, 67, 79]相同的基准设置。

4.3. Results on ShanghaiTech

在这里插入图片描述

4.4. Results on UCF-Crime

在这里插入图片描述

4.5. Results on XD-Violence

在这里插入图片描述

4.6. Results on UCSD-Peds

在这里插入图片描述

5. Conclusion

我们提出了一种新颖的方法,称为RTFM,它使得在弱监督视频异常检测中能够使用基于top-k的多实例学习方法。RTFM学习了一个时间特征幅值映射函数,该函数既能够检测异常视频中包含许多正常片段的稀有异常片段,又能够保证正常和异常片段之间存在较大的间隔。这在两个主要方面改善了后续基于多实例学习的异常分类:

1)我们的RTFM模型学习到更具有判别性的特征,提高了其在区分复杂异常(例如,微妙的异常)和难以处理的负例示例方面的能力;以及
2)它还使得多实例学习分类器能够更有效地利用异常数据。

这两种能力分别导致了更好的微妙异常可辨识性和比当前最先进的多实例学习方法更高的样本效率。它们也是我们的模型在三个大型基准数据集上实现最先进性能的两个主要因素。

阅读总结

有点不是很懂,有时间跑一遍源码再好好理解一下。

  • 18
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值