【弱监督时间动作定位】Dual-Evidential Learning for Weakly-supervised Temporal Action Localization 论文阅读

文章信息:

在这里插入图片描述
发表于:ECCV 2022

原文链接:https://link.springer.com/chapter/10.1007/978-3-031-19772-7_12

源码:https://github.com/MengyuanChen21/ECCV2022-DELU

Abstract

弱监督时间动作定位(WS-TAL)旨在仅使用视频级标签来定位动作实例并识别其类别。尽管取得了很大进展,现有方法仍存在严重的动作与背景混淆问题,这主要源于聚合操作引入的背景噪声和分类与定位任务之间的巨大动作内变异。为了解决这个问题,我们提出了一种适用于WS-TAL的广义证据深度学习(EDL)框架,称为用于不确定性建模的双证据学习(DELU),该框架扩展了传统的EDL范式,以适应弱监督多标签分类目标。具体来说,针对自适应排除不希望的背景片段,我们利用视频级不确定性来衡量背景噪声对视频级预测的干扰。然后,进一步推导片段级不确定性进行渐进学习,从而逐步聚焦于整个动作实例,以“由易到难”的方式进行。大量实验表明,DELU在THUMOS14和ActivityNet1.2基准测试中实现了最先进的性能。我们的代码可在github.com/MengyuanChen21/ECCV2022-DELU上获得。

1 Introduction

在这里插入图片描述
图1:WS-TAL中的动作与背景混淆。(a) 一些背景片段被误分类为前景,从而在视频级监督下分散了聚合过程。(b) 由于动作内部的巨大变异,所学习的动作分类器往往会忽略不够显著的片段,因此容易仅对一小部分动作片段作出反应,而不是整个动作实例。

时间动作定位是视频理解中最基本的任务之一,旨在定位未剪辑视频中动作实例的开始和结束时间戳,并同时识别其类别[62, 49, 31, 53]。由于其在视频检索[9, 41]、摘要[24]、监控[18, 51]、异常检测[50]、视觉问答[25]等方面的巨大潜力,它引起了学术界和工业界的广泛关注。近年来,许多动作定位方法被提出并在完全监督的设置下取得了显著的性能。

然而,这些方法需要大量的手动帧级注释,这限制了它们在实际应用场景中的可扩展性和实用性,因为对大量视频进行密集注释是耗时的、容易出错且极其昂贵的。为了解决这个问题,已经探索了弱监督时间动作定位(WS-TAL)方法[13, 14, 42, 56],该方法只需要容易获得的视频级标签。

由于在弱监督设置中缺乏帧级注释,大多数现有的WS-TAL方法采用了通过分类进行定位的策略[45, 54, 40, 52],其中常用的多实例学习(MIL)策略[35]和/或注意力机制[42]被应用。具体来说,这些方法在将每个未剪辑的视频分成多个固定大小的非重叠片段后,应用动作分类器来预测片段的分类概率序列,称为类激活序列(CAS)。然后选择排名靠前的片段进行聚合,从而产生视频级预测以进行模型优化。为了提高所学习的CAS的准确性,采用了多种策略,例如特征增强[57, 13]、伪标签生成[56]、上下文建模[42]、对比学习[58],这些策略取得了令人印象深刻的性能。

尽管取得了显著的进展,现有方法在弱监督设置中仍然存在严重的动作与背景混淆问题,从而导致与完全监督方法之间存在显著的性能差距[26, 27, 29]。我们认为,动作与背景的混淆主要来自两个方面:(1) 生成视频级预测时,由聚合操作引入的背景噪声。如图1(a)所示,选择用于后续聚合的顶级动作片段可能不准确,即由于其在外观上与前景的相似性,一些背景片段被误认为是动作片段。因此,背景噪声会分散甚至主导后续的视频级分类。(2) 由于分类和定位任务之间的差距导致的动作内部的巨大变异。由于WS-TAL只提供视频级监督,所学习的分类器在进行视频级分类时只需关注最具辨别性的动作片段。如图1(b)所示,模型往往会忽略不够显著的动作片段,即未能将其分类为目标动作类别,因此容易仅对一小部分动作片段作出反应,而不是整个动作实例。这两个问题本质上是相互纠缠的,共同加剧了模型学习过程中的动作与背景混淆。

在这里插入图片描述

图2:一个3类WS-TAL的示例,展示了DELU的两级证据学习结构。(1) 通过学习视频级不确定性,自适应地排除聚合过程中的不希望背景片段(第3.3节)。(2) 通过渐进学习,利用片段级不确定性更好地进行前景与背景的分离(第3.4节)。图中每个三角形代表所有可能预测结果的Dirichlet分布(第3.1节)。三角形的三个顶点代表三类,每个点在三角形内表示类概率分配的特定情况。当具有高值的点集中在某个顶点时,模型以低不确定性U将样本分类到相应类别。

受上述观察的启发,我们发现通过考虑视频和片段级别分类结果的不确定性来解决动作与背景混淆问题是可行的。最近,证据深度学习(EDL)[44, 36],能够收集每个类别的证据并量化预测不确定性,受到了广泛关注并在一些计算机视觉任务中取得了令人印象深刻的表现[46, 43, 3]。然而,EDL是为全监督单标签分类任务设计的,不适合直接应用于弱监督时间动作定位任务。

为了解决上述问题,我们提出了一种适用于WS-TAL的广义EDL框架,称为用于不确定性建模的双证据学习(DELU),该框架扩展了传统的EDL范式,以适应弱监督多标签分类目标。如图2所示,为了解决动作与背景的混淆,DELU利用两级证据学习结构来建模视频级和片段级的预测不确定性。具体来说:(1) 我们利用视频级不确定性来衡量背景噪声的干扰。在这里,我们提出了一种新的证据学习目标来学习视频级不确定性,该目标可以在聚合操作中自适应地排除不希望的背景片段。(2) 在追求视频级不确定性时,自然推导出片段级不确定性。基于这种更细粒度的信息,我们设计了一种渐进学习策略,其中利用片段级不确定性的顺序,以“由易到难”的方式逐步聚焦于整个动作实例。结果是,动作内部变异的负面影响得到了缓解,背景噪声也可以进一步排除。我们提出的DELU以端到端的方式进行优化,并在两个流行的基准测试[15, 6]上验证了其有效性。

总之,这项工作的主要贡献有三个方面:

    1. 我们设计了一个广义的EDL范式,以更好地适应弱监督下的多标签分类设置。据我们所知,我们是首批将证据深度学习引入弱监督时间动作定位的研究者之一。
    1. 通过仔细考虑视频级和片段级的不确定性,我们提出了一种新的双证据学习框架,可以有效缓解由背景噪声和动作内部巨大变异引起的动作与背景混淆问题。
    1. 我们在两个公共基准测试集上进行了大量实验,即Thumos14数据集和Activity1.2数据集。在这两个基准测试集上,我们提出的DELU方法均取得了最先进的结果。

2 Related Work

Weakly-supervised Temporal Action Localization (WS-TAL).近年来,具有各种弱监督类型的WS-TAL(弱监督时间动作定位)得到了发展,例如动作顺序 [5]、网络视频 [11]、单帧注释 [34, 21] 和视频级动作类别标签 [52, 39, 28],其中最后一种由于其简单性而最为常用。UntrimmedNet [52] 是首个使用视频级动作类别标签进行WS-TAL任务的工作。目前的文献中,大多数现有方法可以分为三类,即基于注意力的方法 [45, 54, 13, 42, 38, 32]、基于MIL(多实例学习)的方法 [35, 22, 33, 37, 40] 和基于擦除的方法 [48, 59, 61]。基于注意力的方法生成前景注意力权重,以抑制背景部分。CO2-Net [13] 通过跨模态注意力对齐过滤信息冗余,从而增强特征。基于MIL的方法将输入视频视为一个袋子,其中动作片段为正样本,背景片段为负样本,并使用top-k操作来聚合片段级预测结果。ASL [35] 通过研究类别无关的动作性网络,探索动作的通用独立概念。基于擦除的方法试图擦除最具辨别性的部分,以突出其他较不显著的片段。例如,FC-CRF [61] 通过从完整输入视频中逐步擦除来逐渐寻找新的前景片段。

尽管已有几种方法研究了不确定性在WS-TAL中的作用,例如,GUCT [56] 估计生成的片段级伪标签的不确定性以减轻噪声,Lee等人 [23] 使用链式规则将分类概率分解为动作概率和不确定性,但它们忽略了WS-TAL弱监督设置下独特的两级不确定性结构。在本文中,通过仔细考虑视频级和片段级的不确定性,我们提出了一种新的双证据学习框架,以有效缓解动作与背景的混淆问题。

Evidential Deep Learning (EDL).近年来,深度学习方法通常采用softmax函数作为分类头来输出最终预测。然而,由于神经网络输出上使用了指数运算,使用softmax建模类别概率存在固有缺陷。一方面,基于softmax的分类器在错误预测时往往过于自信,这给优化过程带来了额外的困难[12]。另一方面,由于softmax输出本质上是概率分布的点估计[10],它无法估计预测的不确定性。

为了克服上述缺点,基于Dempster-Shafer证据理论(DST)[55]和主观逻辑理论[19],逐渐发展和完善了EDL [44, 36]。EDL的核心思想是收集每个类别的证据,并构建一个以所收集证据为参数的Dirichlet分布来建模类别概率分布。除了每个类别的概率之外,还可以通过主观逻辑理论从分布中量化预测不确定性。EDL已成功应用于各种需要不确定性建模的任务,并在一些计算机视觉任务中取得了显著进展[46, 43, 3]。例如,Bao等人[3]使用EDL获得的不确定性来区分已知和未知样本,用于开放集动作识别(OSAR)任务。

然而,目前的EDL模型是为全监督单标签分类任务设计的,不能直接应用于弱监督多标签分类设置。据我们所知,我们是首批将证据深度学习引入WS-TAL任务的研究者之一,并展示了良好的性能。

3 Proposed Approach

在这里插入图片描述

图3:所提出的 DELU 的整体框架。在获得片段级证据后,我们通过根据注意力得分选择 top-k 片段来聚合它们,以生成视频级证据。视频级证据和不确定性用于将 EDL 范式推广到 WS-TAL,片段级不确定性则用于生成动态权重以进行逐步学习。需要注意的是,为了简洁起见,我们在此图中省略了常规分类损失 L c l s \mathcal{L}_{cls} Lcls(第3.2节)。

在这项工作中,我们详细描述了我们的DELU框架。我们首先在第3.1节介绍证据深度学习(EDL)。DELU的总体架构如图3所示。我们首先利用预训练的特征提取器获取片段级视频特征,并采用骨干网络获得CAS(第3.2节)。然后,我们提出了一个广义的EDL范式,可以更好地适应WS-TAL的设置。具体来说,利用视频级不确定性来推广EDL范式以适应弱监督多标签(WS-Multi)分类(第3.3节),并通过利用片段级不确定性采用渐进学习策略(第3.4节)。最后,整个框架是端到端学习的(第3.5节)。

3.1 Background of Evidential Deep Learning

根据Dempster-Shafer证据理论[55]和主观逻辑理论[19],证据深度学习(EDL)[2, 44]被提出以解决第2节中提到的基于softmax分类器的缺陷。EDL不是直接预测每个类别的概率,而是首先收集每个类别的证据,然后建立一个以所收集证据为参数的类别概率的Dirichlet分布。基于这个分布,可以通过主观逻辑理论[19]量化预测不确定性。为了表示每个类别的激活强度,证据被定义为从数据中收集的支持样本被分类为特定类别的支持量的度量[55, 19, 44]。

EDL的目标是预测每个类别的证据并构建类别概率的Dirichlet分布。对于一个 C C C类分类问题,设 e ∈ R + C \boldsymbol{e} \in \mathbb{R}_+^C eR+C为样本 x x x的预测证据向量,则相应的Dirichlet分布表示为

在这里插入图片描述

其中, α j = e j + 1 , j = 1 , . . . , C \alpha_j=e_j+1, j=1,...,C αj=ej+1,j=1,...,C 是类别索引, B B B 表示 C C C 维 Beta 函数, q q q C C C 维单位单纯形 S C \mathcal{S}_C SC 上的一个点 [44]。如图2和图3所示,三维单纯形上的Dirichlet分布可以可视化为一个三角形热图。单纯形的每个点代表概率分布的点估计,每条边的取值范围为 [0,1],亮度表示Dirichlet概率密度函数的值。将 D ( q ∣ α ) D(\boldsymbol{q}|\boldsymbol{\alpha}) D(qα) 视为类别概率分布,样本 x x x 的边缘似然的负对数可以推导如下:

在这里插入图片描述

其中, y \boldsymbol{y} y 是样本 x x x 的独热编码(one-hot)真值向量, S = ∑ j = 1 C α j S=\sum_{j=1}^C \alpha_j S=j=1Cαj。方程 (2) 是EDL的传统优化目标 [44, 36]。然后,类别 j j j 的预测概率 p ^ j \hat{p}_j p^j 和预测的不确定性 u u u 可以如下推导:

在这里插入图片描述

注意,不确定性 ( u ) 与总证据量成反比。当总证据量为零时,不确定性达到最大。

3.2 Notations and Preliminaries

以下中使用上标 ( i ) (i) (i)表示样本索引, i = 1 , . . . , N i=1,...,N i=1,...,N,下标 j j j表示类别索引。需要注意的是,为了简化,在没有歧义的情况下,上标 ( i ) (i) (i)已被省略。给定一个未剪辑的视频 V V V及其对应的多热动作类别标签 y ∈ { 0 , 1 } C + 1 \boldsymbol{y}\in\{0,1\}^{C+1} y{0,1}C+1,其中 C C C为动作类别数, C + 1 C+1 C+1表示非动作背景类。通过WS-TAL方法检测的视频 V V V中的动作实例可以表示为一组有序四元组 { c m , t m s , t m e , ϕ m } m = 1 M \{c_{m},t_{m}^{s},t_{m}^{e},\phi_{m}\}_{m=1}^{M} {cm,tms,tme,ϕm}m=1M,其中 M M M是视频 V V V中的动作实例数, c m c_{m} cm表示动作类别, t m s t_m^s tms t m e t_m^e tme分别表示开始和结束时间戳, ϕ m \phi_m ϕm表示置信度评分。

按照以往的工作[42,14,56],我们首先将未剪辑的视频 V V V分割成 T T T个不重叠的16帧片段,并使用预训练网络(例如,I3D模型[20])从RGB和光流流中提取特征。之后,将两种特征进行拼接,然后输入到融合模块(例如卷积层[42,13]),以获得片段级特征 X = [ x 1 , . . . , x T ] ∈ R D × T X=[x_1,...,x_T]\in\mathbb{R}^{D\times T} X=[x1,...,xT]RD×T,其中 D D D是特征维度。

迄今为止,现有文献中的方法主要采用基于分类的定位策略。首先,对片段级特征 X \boldsymbol{X} X应用分类器 f cls f_{\text{cls}} fcls,以预测CAS,表示为 p = [ p 1 , . . . , p T ] ∈ R T × ( C + 1 ) \boldsymbol{p}=[\boldsymbol{p}_1,...,\boldsymbol{p}_T]\in\mathbb{R}^{T\times(C+1)} p=[p1,...,pT]RT×(C+1)。同时,通过注意力模块预测注意力得分序列 A = [ A 1 , . . . , A T ] ∈ R T \boldsymbol{A}=[A_1,...,A_T]\in\mathbb{R}^T A=[A1,...,AT]RT,表示片段属于前景的概率。之后,通过对CAS根据注意力得分 A \boldsymbol{A} A进行top- k k k聚合操作获得视频级分类概率 y ~ \tilde{\boldsymbol{y}} y~,其过程可以形式化为:

在这里插入图片描述

其中 p = f cls ( X ) \boldsymbol{p} = f_{\text{cls}}(\boldsymbol{X}) p=fcls(X)。最后,通过以下方式优化视频级预测 y ~ \tilde{\boldsymbol{y}} y~与真实标签 y \boldsymbol{y} y 进行优化:

在这里插入图片描述

3.3 Generalizing EDL for Video-level WS-Multi Classification

虽然证据深度学习在建模不确定性方面取得了重大进展,但传统的EDL范式不适合直接应用于WS-TAL的WS-Multi分类设置。为了将证据学习方法扩展到WS-TAL任务中,第一个需要解决的问题是如何从片段级特征 X X X中预测视频级证据 e v i d = [ e v i d , 1 , . . . , e v i d , C ] ∈ R C \boldsymbol{e}_{vid}=[\boldsymbol{e}_{vid,1},...,\boldsymbol{e}_{vid,C}]\in\mathbb{R}^{C} evid=[evid,1,...,evid,C]RC。我们建议首先预测动作类别的片段级证据 e s n i p = [ e s n i p , 1 , . . . , e s n i p , C ] ∈ R T × C \boldsymbol{e}_{snip}=[\boldsymbol{e}_{snip,1},...,\boldsymbol{e}_{snip,C}]\in\mathbb{R}^{T\times{C}} esnip=[esnip,1,...,esnip,C]RT×C,然后通过聚合具有top- k k k注意力得分 A t A_t At的片段级证据 e s n i p , t \boldsymbol{e}_{snip,t} esnip,t来获得视频级证据 e v i d e_{vid} evid。需要注意的是,我们在聚合过程中联合使用了注意力得分和证据,这使得注意力模块和证据学习相互增强和补充。形式上,我们可以将视频级证据收集过程表示如下:

在这里插入图片描述

其中 k = ⌈ T / r ⌉ k=\lceil T/r \rceil k=T/r r r r 是缩放因子, e s n i p = g ( f ( X ; θ ) ) \boldsymbol{e}_{snip}=g(f(\boldsymbol{X};\boldsymbol{\theta})) esnip=g(f(X;θ)) f f f 是由 θ \boldsymbol{\theta} θ 参数化的深度神经网络,用于收集证据, g g g 表示证据函数(例如 ReLU),用于保持证据 e s n i p e_{snip} esnip 为非负。需要注意的是,这里我们只考虑 C C C 个动作类别进行证据学习,因为额外的背景类会妨碍前景的 uncertainty modeling。按照传统的 EDL 方法,我们通过以下方式获得 α \alpha α S S S u v i d u_{vid} uvid

在这里插入图片描述

由于某些动作类别的出现频率低或持续时间短,收集到的证据往往具有较低的强度,因此在模型学习过程中容易被忽略。因此,我们希望分类器能够对证据评分较小的目标动作类别赋予更多的权重。结合第3.2节中介绍的符号,我们设计了一个新的标签向量 g g g 来替代原始的多热标签 y y y

在这里插入图片描述

从公式(8)可以发现, g j g_{j} gj e v i d , j e_{vid,j} evid,j 成反比,因此,模型可以更均衡地学习每个目标类别的特征。

虽然上述修改的EDL范式可以更好地适应多标签分类设置,但它忽略了来自视频级证据学习的不确定性。我们进一步注意到,视频级不确定性 u v i d \boldsymbol{u}_{vid} uvid 可以用来衡量背景噪声对视频级预测的干扰,从而避免背景噪声加剧动作-背景模糊性。我们认为,只有在分类器以低不确定性正确预测视频类别时,选择的 top- k k k 片段才会如预期般被动作片段主导。相反,当预测伴随有高不确定性时,视频级预测更可能受到背景噪声的主导。在后者情况下,我们应期望分类器产生一个琐碎的预测,而不是强制结果与给定的视频级动作类别标签一致,这可能会导致动作-背景模糊性进一步增加。为了实现这一目标,我们建议通过利用视频级不确定性,将 g j g_j gj 替换为 h j h_j hj

在这里插入图片描述

因此,具有较高视频级不确定性的样本在优化过程中可以获得较小的权重,从而减少背景噪声带来的负面影响。

基于上述推导,我们将证据深度学习的目标扩展为以下形式:

在这里插入图片描述

3.4 Snippet-level Progressive Learning

在上述部分中,我们在进行视频级证据学习时也推导了片段级不确定性。为了利用细粒度信息,我们注意到 p ∈ R T × ( C + 1 ) \boldsymbol{p} \in \mathbb{R}^{T \times (C+1)} pRT×(C+1) 表示片段的分类概率,而 p t , c + 1 p_{t,c+1} pt,c+1 表示第 t t t 个片段属于背景的概率。自然地,表示每个片段属于前景的概率的注意力得分 A \boldsymbol{A} A 和背景概率 p t , c + 1 p_{t,c+1} pt,c+1 应该是互补的:

在这里插入图片描述
其中 ∣ ⋅ ∣ \mid\cdot\mid ℓ 1 \ell_1 1 范数。

由于分类和定位之间存在任务差距,模型往往只关注最具区分性的视频片段,这使得其他动作片段的分类变得困难。受课程学习 [4] 启发,我们提出了一种进阶学习方法,通过利用片段级不确定性帮助模型逐步全面地学习整个动作实例。需要注意的是,片段级不确定性可以反映其自身的可区分性,即动作片段的不确定性越低,表示其类别越容易识别。我们的策略是最开始对低不确定性的片段赋予更大的权重,对高不确定性的片段赋予更小的权重,然后在训练过程中逐渐逆转这一分配。在逐步学习过程中,模型首先关注容易识别的动作片段,然后逐渐更多地关注背景和困难的动作片段。这样可以缓解动作内部变异的负面影响,并进一步排除背景噪声。因此,如图3所示,我们设计了如下的动态权重函数 λ ( r , t ) \lambda(r,t) λ(r,t)

在这里插入图片描述

其中 Δ \Delta Δ 是一个超参数,表示动态权重变化的幅度。具体来说, δ ( r ) = 2 r R − 1 ∈ [ − 1 , 1 ] \delta (r) = \frac{2r}{R} - 1 \in [-1, 1] δ(r)=R2r1[1,1],其中 r = 1 , … , R r = 1, \ldots, R r=1,,R r r r 是当前的训练轮次索引, R R R 表示总的训练轮次数,而 ϕ ( s ( t ) ) = 2 s ( t ) T − 1 ∈ [ − 1 , 1 ] \phi(s(t)) = \frac{2s(t)}{T} - 1 \in [-1, 1] ϕ(s(t))=T2s(t)1[1,1],其中 s = 1 , … , T s = 1, \ldots, T s=1,,T s ( t ) s(t) s(t) 表示通过将片段级不确定性 u s n i p u_{snip} usnip 按降序排序得到的片段 t t t 的序号。

最后,在将片段级不确定性引导的动态权重乘以互补损失 L c o m \mathcal{L}_{com} Lcom 之后,我们可以通过优化以下目标,逐渐以“易到难”的方式关注整个动作实例:

在这里插入图片描述

3.5 Learning and Inference

Training.通过聚合上述所有优化目标,我们得到如下最终损失函数:

在这里插入图片描述
Inference.在推理阶段,我们首先预测测试视频的 CAS,然后采用阈值策略来获取动作片段候选项,按照标准流程 [13] 进行。最后,将连续的片段分组为动作提案,并进行非极大值抑制(NMS)以移除重复的提案。

4 Experimental Results

在这里插入图片描述
在这里插入图片描述

5 Conclusions

本文提出了一种用于 WS-TAL 的广义证据学习框架,称为不确定性建模的双重证据学习(DELU)。具体来说,通过视频级证据学习和片段级逐步学习来共同缓解动作-背景模糊性。大量实验表明,我们提出的框架中各组件的有效性。DELU 在 THUMOS14 和 ActivityNet1.2 的弱监督时间动作定位任务上表现优于所有现有方法。受证据学习优点的启发,未来我们计划进行伪标签挖掘或引入单帧注释,以探索和扩展 DELU 框架的潜力。

阅读总结

这个什么证据学习,我也没了解过,我的理解应该就是有了一个分类得分后还有一个不确定性的分数辅助。

片段渐进学习这个我感觉还是可以借鉴一下的,逐步调整片段的权重,因为即使是判别性差的片段,但只要是属于动作中的一部分,那就应该认为是平等的。

这个符号表示有点问题吧,第一个下标C根据上下文和架构图,应该是T吧。
第二个,既然是定义 Ω \Omega Ω Ω \Omega Ω又被等式右边使用,这不是矛盾吗?
我感觉是公式写错了。

图片:
在这里插入图片描述

  • 20
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值