Adaptive Prototype Learning for Weakly-supervised Temporal Action Localization 论文阅读
文章信息:
发表于:IEEE Transactions on Image Processing ( Early Access ) 中科院一区
原文链接:https://ieeexplore.ieee.org/abstract/document/10643004
源码:无
Abstract
弱监督时序动作定位(WTAL)旨在仅使用训练期间的视频级标签来定位动作实例,其主要面临两个问题:定位不完整性和背景干扰。为了解决这两个问题,最近的方法采用了注意力机制来激活动作实例并同时抑制背景区域,取得了显著进展。然而,我们认为这两个问题仍未得到很好的解决。一方面,注意力机制为不同视频采用固定的权重,无法处理视频间的多样性,因此在解决定位不完整性问题上表现不足。另一方面,以往的方法只专注于学习前景的注意力,而注意力权重通常存在歧义,导致难以有效抑制背景干扰。为了解决上述问题,本文提出了一种用于WTAL的自适应原型学习(APL)方法,该方法包含两个关键设计:(1)自适应变压器网络(ATN),用于显式建模背景并为每个特定视频学习视频自适应原型;(2)基于最优传输(OT)的协同(OTC)训练策略,通过将最优传输算法引入到RGB和光流(FLOW)流之间的协同训练方案中,来指导原型学习并消除前景-背景分离的歧义。这两个关键设计可以协同工作,以学习视频自适应原型并解决上述两个问题,实现稳健的定位。在两个标准基准(THUMOS14和ActivityNet)上的大量实验结果表明,我们提出的APL方法在性能上优于现有的最先进方法。
I. INTRODUCTION
图 1. 通过 t-SNE [9] 可视化四个视频的片段级特征分布(仅前景片段),透明度表示由前景原型给出的激活强度。
时序动作定位(TAL)是计算机视觉领域中一个基础但具有挑战性的任务,旨在同时发现未剪辑视频中的动作实例并辨别其类别。由于其在智能监控、视频摘要和精彩片段检测等现实场景中具有广泛的潜在应用,TAL 近年来引起了研究界越来越多的关注,从而在该领域取得了显著进展。然而,大多数现有方法在完全监督的设置中处理这一任务,要求为模型训练提供帧级别的动作时序边界注释。这类大规模标签的获取成本较高,限制了完全监督方法在实际场景中的发展潜力。
为了解决这一限制,弱监督时序动作定位(WTAL)得到了广泛研究,其目标是通过弱标签(例如视频级标签、电影脚本、动作时序顺序或动作频率)进行学习。在这些设置中,基于视频级标签的WTAL因其低标注成本而在研究界中备受欢迎。标准方法是将每个视频划分为多个片段,然后使用视频级标签训练一个分类器。最终,通过分类定位的流程实现动作定位。然而,由于分类与定位之间的差异,WTAL存在两个问题。第一个问题称为定位不完整性。为了最小化分类成本,WTAL往往只关注对视频级分类贡献最大的、最具辨别力的片段,而忽略较不重要的动作片段,导致定位不完整。另一个问题是背景干扰。由于动作实例通常被高度相关的背景片段包围,WTAL模型容易受到这些背景片段的影响,因为它们通常为动作分类提供了强有力的证据,例如动作场景和非动作的运动。
为了缓解这两个问题,最近的研究采用了注意力模块来生成用于定位的前景注意力权重,该模块不依赖于特定类别,旨在弥合分类和定位之间的差距。其中一些方法采用多重注意力机制来探索较少具有辨别性的片段,另一些方法则设计了各种损失函数来引导注意力权重的学习,例如稀疏正则化、背景建模、前景动作一致性和伪标签监督。尽管这些基于注意力的方法取得了显著进展,但我们认为这两个问题仍未得到很好解决。一方面,注意力机制为不同视频采用固定权重,无法处理不同视频的多样性,因此在解决定位不完整性问题上表现不足。如图1所示,我们可视化了注意力模块(前景原型)的权重及不同视频的片段级特征分布。由于视频的多样性,学习到的前景原型(红色星标)位于不同视频的具有辨别性片段的区域附近。该原型倾向于对靠近它的片段给予较高的激活值,而忽略距离较远的片段。因此,我们认为学习一个视频自适应的原型来激活前景片段(例如绿色星标)对于完整的动作定位非常重要。另一方面,以往的方法只专注于学习前景注意力,而注意力权重在某些困难的背景片段中通常会有模糊的值(例如,0.5)。为了更好地抑制背景干扰,有必要显式建模背景并提出一种有效的机制来消除这种模糊性。
基于上述讨论,我们提出了一种新颖的自适应原型学习(APL)方法用于弱监督时序动作定位。我们的方法从一个自适应变压器网络(ATN)开始,为每个特定视频生成视频自适应原型,其中包括片段表示编码器、自适应原型解码器和定位解码器。在片段表示编码器中,我们采用时间卷积来建模片段之间的上下文信息,这有助于学习紧凑的片段表示,从而有利于原型学习。在自适应原型解码器中,我们动态聚合精炼后的片段级特征,以获得视频自适应原型。具体来说,我们引入了一个前景查询和一个背景查询,分别专注于前景和背景片段。然后,我们利用交叉注意力机制来建模查询与视频片段特征之间的交互。最终,查询发现相关的前景/背景片段,这些片段被聚合成一个向量,作为视频自适应原型。由于原型是从每个特定视频生成的,它们可以很好地处理不同视频的多样性,有助于获得更完整的动作定位。在定位解码器中,我们使用原型对给定视频进行动作定位。另一个交叉注意力机制被设计用来通过两个视频自适应原型与片段级特征之间的相关性生成前景和背景注意力,然后使用注意力权重通过阈值截断来生成定位结果。虽然上述设计可以很好地处理定位不完整问题,但仅有视频级别的真实标签监督不足以进行前景-背景分离。受到最近基于伪标签方法成功的启发,一种有效的方式是提供伪标签来指导前景/背景原型的学习。然而,由于不同的模型设计,现有的基于伪标签的方法无法直接应用于我们的模型。受到最优传输(OT)在伪标签分配中的广泛应用和RGB与光流(FLOW)模态互补性的启发,我们提出了一种基于OT的协同(OTC)训练策略。具体而言,我们首先通过现成的Sinkhorn-Knopp算法为每个片段分配一个伪标签,该算法从全局视角考虑标签分配,有助于消除前景-背景分离的歧义。然后,我们利用由RGB流生成的伪标签作为光流的监督信息,反之亦然,以便两个流能够协同工作,相互促进。这种训练策略结合视频级别类别标签的监督,可以引导网络学习具有丰富视频特定知识的自适应原型,有利于实现前景-背景分离。
总而言之,我们的工作主要有三个贡献:(1)基于注意力方法在解决定位不完整性和背景干扰问题上的不足,我们提出了一种新颖的自适应原型学习方法(APL)用于弱监督时序动作定位(WTAL),以实现稳健的定位。(2)提出了一种自适应变压器网络(ATN),用于为每个特定视频生成视频自适应原型,并设计了一种基于最优传输(OT)的协同训练策略,以引导自适应原型的学习并消除前景-背景分离的歧义。(3)在两个具有挑战性的基准数据集上进行的大量实验结果表明,所提出的方法在性能上优于最先进的WTAL方法。
II. RELATED WORK
在本节中,我们将简要概述与全监督和弱监督时序动作定位相关的方法。
A. Fully-supervised Temporal Action Localization
时序动作定位(TAL)任务旨在定位动作实例的起始和结束时间戳,并识别其类别。类似于目标检测的发展,目前的全监督TAL方法可以分为两个方向:两阶段方法和单阶段方法。两阶段方法首先生成候选提议,然后将其输入到动作分类器中。为提高提议质量或分类器的鲁棒性,已有多项工作被提出。单阶段方法则尝试在一次性检测中定位动作,无需使用动作提议。例如,SS-TAD采用递归神经网络同时预测动作类别及其对应的时间边界。A2Net探索了基于锚点和无锚点模型的结合,以实现高效的TAL。尽管现有方法可以取得显著的性能,但对耗时且昂贵的标注的需求限制了它们在实际场景中的应用。
B. Weakly-supervised Temporal Action Localization
为克服上述限制,旨在通过较少监督(例如视频级类别标签)检测动作的弱监督设置得到了广泛研究。由于缺乏片段级的时间注释,这类方法面临两个挑战,分别是定位不完整性和背景干扰。现有方法大致可以分为四类来解决这些问题。
第一类工作采用擦除机制或多分支架构来提高定位完整性。例如,Hide-and-Seek在训练过程中尝试随机擦除帧序列,迫使模型突出不太具辨别性的片段。类似地,Zhong等人通过逐步擦除完整视频中的内容,驱动一系列分类器逐步发现新的动作片段。CMCS采用多分支架构,通过专门设计的多样性损失函数来发现独特的动作部分。
第二类工作基于度量学习,采用了多种损失函数来学习更紧凑的类内特征表示,并抑制背景干扰。WTALC提出了一个协同活动相似性损失,将具有相同标签的特征表示拉近,并将不同标签的特征表示推远。3C-Net和RPN分别提出了中心损失和聚类损失,以减少类内方差。最近,CoLA提出了一种困难片段挖掘算法,用于定位潜在的困难片段,并利用片段对比损失来优化困难片段的片段级特征,旨在获得更具信息量的特征分布。
第三类工作是基于注意力机制的方法。通过专门的设计,这些方法可以很好地抑制背景片段的激活,并取得出色的性能,因此在社区内非常受欢迎。STPN首次提出了一个与类别无关的注意力模块,并结合稀疏正则化来捕捉关键的动作片段。WSAL-BM和BaS-Net引入了一个额外的背景类别,以便更好地建模前景和背景。在AUMN中,设计了一个自注意力模块和一个交叉注意力模块,以自适应地更新记忆库并学习动作单元特定的分类器。FAC-Net引入了一个按类别前景分类的管道,以规范前景和动作的一致性。有别于这些方法,我们提出了一种新颖的自适应变压器网络,用于生成视频自适应的前景/背景原型,通过探索视频特定的知识,提供了一种更有效的生成注意力序列的方式。
第四类工作探索了跨模态交互,其中不同模态可以以适当的方式互相补充。TSCN融合了RGB和光流(FLOW)流的输出以生成伪标签,这些伪标签作为帧级别的监督信息来细化这两个流。UGCT提出了一种不确定性引导的协同训练策略,其中两个流协同工作,从彼此中学习。CO2-Net设计了一种跨模态注意力机制,以过滤掉任务无关的信息冗余,并探索模态间的一致性。我们的工作借鉴了UGCT的思想,充分利用跨模态的互补信息,并通过片段级伪标签促使两个流相互学习。然而,我们发现生成的伪标签可能会噪声较多和错误分配,从而导致次优性能。受到最优传输(OT)在伪标签分配中的广泛应用的启发,我们提出了一种基于OT的模态协同训练策略,以全球视角提高伪标签的质量,从而有助于实现更好的前景-背景分离。
C. Transformers for Video Understanding
Transformer架构最初是为自然语言处理(NLP)任务提出的,并在计算机视觉领域引起了极大兴趣。ViT提出了首个基于Transformer的纯模型,采用图像补丁作为输入。之后的研究提出了对ViT的若干改进,如DeiT、PVT和Swin Transformer。最近,一些研究尝试将Transformer架构引入视频表示学习。TimeSformer通过直接从一系列帧级补丁中进行时空特征学习,将标准Transformer架构适应于视频。ViViT提出了四种纯Transformer模型,分别对输入token的空间和时间维度进行分解。VideoSwin则倡导视频Transformer中的局部性归纳偏置。在时序动作定位(TAL)任务中,RTD-Net和TAPG Transformer将Transformer架构适配用于视频中的时序动作提议生成。受到DETR的启发,AGT和TadTR分别提出了基于Transformer的端到端TAL框架。不同于上述大多数方法,我们仅使用Transformer的解码器来进行弱监督TAL,这些解码器用于生成视频自适应原型,并计算前景和背景注意力。
III. METHOD
在本节中,我们详细阐述了针对弱监督时序动作定位(WTAL)任务所提出的模型。
Problem Definition.。假设我们有 N N N个未裁剪的训练视频 { V i } i = 1 N \{V_i\}_{i=1}^N {Vi}i=1N。每个视频 V i V_i Vi 具有其地面真实标签 y i ∈ R C \mathbf{y}_i \in \mathbb{R}^C yi∈RC,其中 C C C是动作类别的数量。如果动作类别 j j j存在于视频中,则 y i ( j ) = 1 \mathbf{y}_i(j) = 1 yi(j)=1,否则 y i ( j ) = 0 \mathbf{y}_i(j) = 0 yi(j)=0 。在推断过程中,弱监督动作定位(WTAL)的目标是为每个视频生成一组动作提议 { ( c , s , e , q ) } \{(c, s, e, q)\} {(c,s,e,q)},其中 c c c 和 q q q 分别表示预测的类别和置信度得分, s s s 和 e e e分别表示开始时间和结束时间。
图2:所提出的自适应原型学习方法的总体架构包括:用于生成分类激活序列(CAS)的分类网络、用于生成视频自适应原型和前景/背景注意力的自适应变压器网络,以及用于指导原型学习的基于最优传输(OT)的协同训练策略。
如图2所示,我们提出了一种针对弱监督时序动作定位(WTAL)的自适应原型学习方法,该方法主要包括一个双重自适应变压器网络(ATN)和一个基于最优传输(OT)的协同训练策略。每个流中的ATN旨在生成视频自适应原型,以缓解全局注意力机制在解决定位不完整性方面的不足。而OTC训练策略则旨在增强跨模态交互,通过在两个流之间提供细粒度的监督来消除前景-背景分离的模糊性。具体来说,我们首先利用预训练网络提取输入视频的RGB和光流特征。然后,我们将两个流的特征进行拼接,并将其输入分类网络以获得片段级类别预测。同时,对于每个流,我们利用ATN生成用于定位的类无关注意力。如图3所示,在ATN中,我们首先采用片段表示编码器来建模片段之间的上下文信息。接着,我们引入前景查询和背景查询,通过交叉注意力机制将精细化的片段级特征聚合为视频自适应原型。最后,我们利用这两个原型计算视频自适应的前景和背景注意力,这些注意力丰富了视频特定的知识,并用于在推断过程中生成动作提议。为了更好地指导原型学习和进行前景-背景分离,如图2所示,我们采用最优传输算法根据前景和背景注意力为每个片段分配伪标签,并在两个流之间构建相互监督,使两个流能够协同工作,相互促进。具体细节如下介绍。
A. Feature Extraction
给定一个未裁剪的视频 V V V,我们首先将其划分为不重叠的16帧片段,并将这些片段输入预训练的特征提取器(例如,I3D [75] 预训练于 Kinetics 数据集)以提取片段级特征。我们用 X r ∈ R L × D \mathbf{X}^r \in \mathbb{R}^{L \times D} Xr∈RL×D 和 X f ∈ R L × D \mathbf{X}^f \in \mathbb{R}^{L \times D} Xf∈RL×D来表示整个视频的RGB特征和光流特征,其中 L L L 表示视频中的片段数量, D D D 是特征的维度。
B. Classification Network
在获得RGB和光流特征后,我们首先将它们在通道维度上进行拼接,形成融合特征 X f u s e ∈ R L × 2 D \mathbf{X}^{fuse} \in {\mathbb{R}}^{L \times 2D} Xfuse∈RL×2D,然后将其输入到分类网络中。由于从I3D提取的特征最初并非为WSAL任务学习的,我们将分类网络设计为三层卷积层。前两层的目的是融合两个流并学习任务导向的特征,最后一层生成分类激活序列(CAS) S f u l l ∈ R L × ( C + 1 ) \mathbf{S}_{full} \in \mathbb{R}^{{L} \times ({C} + 1)} Sfull∈RL×(C+1),其中 ( C + 1 ) (C + 1) (C+1) 类被视为背景。
C. Adaptive Transformer Network
图 3. (a) 自适应 Transformer 网络的架构,包括一个片段表示编码器、一个自适应原型解码器和一个定位解码器。 (b) 自适应原型解码器的架构,其中 S 表示时间softmax函数。 ( c) 定位解码器的架构,其中 σ 表示 sigmoid 函数。
自适应变压器网络的架构如图3所示,包括一个片段表示编码器、一个自适应原型解码器和一个定位解码器。由于RGB流和光流流的结构是并行的,出于简便起见,本节仅讨论RGB流。
(1) Segment Representation Encoder:上下文信息对于缓解弱监督时间动作定位(WTAL)中的时间不连贯性非常重要【19】, 【76】。因此,我们将 X r \mathbf{X}^r Xr输入到一个时间卷积层中,以建模上下文信息,并获得紧凑的上下文感知特征 X C r ∈ R L × D \mathbf{X}_C^r \in \mathbb{R}^{L \times D} XCr∈RL×D,这有助于学习视频自适应原型。我们还探索了其他方法,如自注意力机制【55】来替换时间卷积层,实验结果如 IV-D 所示。
(2) Adaptive Prototype Decoder:为了生成视频自适应原型,我们引入了前景查询
o
f
g
r
\mathbf{o}_{fg}^r
ofgr和背景查询
o
b
g
r
\mathbf{o}_{bg}^r
obgr,通过交叉注意力机制分别聚合前景和背景片段。具体来说,查询
Q
\mathbf{Q}
Q来自可学习的查询
O
r
=
[
o
f
g
r
;
o
b
g
r
]
∈
R
2
×
D
\mathbf{O}^r = [\mathbf{o}_{fg}^r; \mathbf{o}_{bg}^r] \in \mathbb{R}^{2 \times D}
Or=[ofgr;obgr]∈R2×D,而键K和值V则来自上下文感知特征
X
C
r
\mathbf{X}_C^r
XCr。形式化地表示为:
其中,
W
Q
∈
R
D
×
D
k
\mathbf{W}^Q \in \mathbb{R}^{D \times D_k}
WQ∈RD×Dk 和
W
K
∈
R
D
×
D
k
\mathbf{W}^K \in \mathbb{R}^{D \times D_k}
WK∈RD×Dk 是线性投影。然后,我们计算缩放点积注意力,并生成视频自适应原型
P
r
=
[
p
f
g
r
;
p
b
g
r
]
∈
R
2
×
D
\mathbf{P}^r = [\mathbf{p}_{fg}^r; \mathbf{p}_{bg}^r] \in \mathbb{R}^{2 \times D}
Pr=[pfgr;pbgr]∈R2×D,具体计算方式为:
其中, T T T 表示转置操作。不同于先前方法为不同视频采用固定注意力权重,视频自适应原型 P r \mathbf{P}^r Pr 可以从每个特定视频中自适应地生成,并能够发现不同视频中的细微前景片段,以实现完整的定位。此外,为了确保前景和背景原型之间的差异性,我们设计了一个差异损失函数,其定义为:
这鼓励原型之间的低余弦相似性。
3 ) Localization Decoder: 给定视频自适应原型
P
r
\mathbf{P}^r
Pr,我们应用另一个交叉注意力机制来生成视频自适应前景/背景注意力,用于无类别的动作定位。具体来说,查询
Q
′
\mathbf{Q}^\prime
Q′ 来源于
P
r
{\mathbf{P}}^r
Pr,而键
K
′
\mathbf{K}^\prime
K′ 来源于上下文感知特征
X
C
r
\mathbf{X}_C^r
XCr。形式化地表示为:
其中, W Q ′ ∈ R D × D k \mathbf{W}^{Q^{\prime}} \in \mathbb{R}^{D \times D_k} WQ′∈RD×Dk 和 W K ′ ∈ R D × D k \mathbf{W}^{K^{\prime}} \in \mathbb{R}^{D \times D_k} WK′∈RD×Dk 是线性投影。然后,视频自适应注意力 A r = [ a f g r ; a b g r ] ∈ R 2 × L \mathbf{A}^r = [\mathbf{a}_{fg}^r; \mathbf{a}_{bg}^r] \in \mathbb{R}^{2 \times L} Ar=[afgr;abgr]∈R2×L 是通过计算查询 Q ′ \mathbf{Q}^\prime Q′ 和键 K ′ \mathbf{K}^\prime K′ 之间的缩放点积,然后通过一个sigmoid函数获得的。
为了更好地学习注意力权重,我们分别利用 a f g r \mathbf{a}_{fg}^r afgr 和 a b g r \mathbf{a}_{bg}^r abgr 来获得前景和背景分类分数。然后,可以在视频级标签的监督下更新注意力权重。受之前基于注意力的方法 [21], [51] 中使用前景注意力来抑制分类激活序列 (CAS) 的启发,我们首先计算前景分类激活序列 S f g r ∈ R L × ( C + 1 ) \mathbf{S}_{fg}^r \in \mathbb{R}^{L \times (C+1)} Sfgr∈RL×(C+1) 和背景分类激活序列 S b g r ∈ R L × ( C + 1 ) \mathbf{S}_{bg}^r \in \mathbb{R}^{L \times (C+1)} Sbgr∈RL×(C+1),分别使用 a f g r \mathbf{a}_{fg}^r afgr 和 a b g r \mathbf{a}_{bg}^r abgr 计算。
其中,
∘
\circ
∘ 表示在时间维度上的元素级乘法。之后,我们利用 top-
k
k
k 聚合策略来计算视频级别的分类预测
y
^
f
u
l
l
r
∈
R
C
\mathbf{\hat{y}}_{full}^r \in \mathbb{R}^C
y^fullr∈RC,
y
^
f
g
r
∈
R
C
\mathbf{\hat{y}}_{fg}^r \in \mathbb{R}^C
y^fgr∈RC 和
y
^
b
g
r
∈
R
C
\mathbf{\hat{y}}_{bg}^r \in \mathbb{R}^C
y^bgr∈RC,公式如下:
其中, S f u l l r = S f u l l , i \mathbf{S}^r_{full} = \mathbf{S}_{full},i Sfullr=Sfull,i 表示第 i i i 类, k = ⌊ L / 8 ⌋ k = \lfloor L/8 \rfloor k=⌊L/8⌋。最后,我们的分类损失可以表示为不同预测和相应视频标签之间的三个交叉熵损失之和。
其中, ℓ c e ( y o , y ^ o r ) = − ∑ i = 1 C + 1 y o ( i ) log y ^ o r ( i ) \ell_{ce}(\mathbf{y}_o,\mathbf{\hat{y}}_o^r) = -\sum_{i=1}^{C+1}\mathbf{y}_o(i)\log\mathbf{\hat{y}}_o^r(i) ℓce(yo,y^or)=−∑i=1C+1yo(i)logy^or(i) 是交叉熵损失函数, y f u l l = [ y ( 1 ) , … , y ( C ) , 1 ] \mathbf{y}_{full} = [\mathbf{y}(1), \ldots, \mathbf{y}(C), 1] yfull=[y(1),…,y(C),1], y f g = [ y ( 1 ) , … , y ( C ) , 0 ] \mathbf{y}_{fg} = [\mathbf{y}(1), \ldots, \mathbf{y}(C), 0] yfg=[y(1),…,y(C),0], y b g = [ 0 , … , 0 , 1 ] \mathbf{y}_{bg} = [0, \ldots, 0, 1] ybg=[0,…,0,1]。
D. OT-based Collaborative Training Strategy
尽管使用视频级监督训练的ATN能够有效处理定位不完整的问题,但它仍面临难以处理的前景-背景分离问题。例如,如图5所示,在“长跳”动作之前和之后的片段是背景片段,这些片段包含运动场或非动作运动如热身。这些背景片段为预测整体动作类别提供了强有力的证据,仅凭视频级监督不足以抑制它们。为了解决这个问题,我们设计了一种基于最优传输(OT)的协作(OTC)训练策略,以提供更细粒度的监督,该策略将伪标签分配公式化为最优传输问题,然后利用这些伪标签在RGB和光流流之间构建相互监督。具体地,给定来自RGB或光流流的 L L L个特征向量 X C = [ x C 1 ; . . . ; x C L ] \mathbf{X}_C=[\mathbf{x}_C^1;...;\mathbf{x}_C^L] XC=[xC1;...;xCL],我们旨在将它们映射到视频自适应原型 P = [ p f g ; p b g ] \mathbf{P}=[\mathbf{p}_{fg}; \mathbf{p}_{bg}] P=[pfg;pbg],以实现全球最小运输成本。我们将这种映射称为传输计划 T ∈ R 2 × L \mathbf{T}\in\mathbb{R}^{2\times L} T∈R2×L,其成本矩阵为 C = ( 1 − A ) \mathbf{C}=(\mathbf{1}-\mathbf{A}) C=(1−A),其中 A \mathbf{A} A指视频自适应注意力,来自与 X C \mathbf{X}_C XC相同的流。形式上, T \mathbf{T} T通过解决最优传输问题来计算,公式如下:
其中, Tr \text{Tr} Tr表示方阵的迹。在公式(9)中,第一个项衡量特征 X C \mathbf{X}_C XC和原型 P \mathbf{P} P之间的相似性,而第二项(即 H ( T ) = ∑ i = 1 2 ∑ j = 1 L T ( i ) ( j ) log T ( i ) ( j ) H(\mathbf{T}) = \sum_{i=1}^2 \sum_{j=1}^L \mathbf{T}(i)(j) \log \mathbf{T}(i)(j) H(T)=∑i=12∑j=1LT(i)(j)logT(i)(j))是对 T \mathbf{T} T的熵正则化, ϵ \epsilon ϵ是一个控制映射平滑度的参数。较大的 ϵ \epsilon ϵ值通常会导致所有片段均匀分配到两个原型的平凡解,因此在我们的实验中保持 ϵ \epsilon ϵ较低。公式(10)表示关于 T \mathbf{T} T的约束,其中 1 L \mathbf{1}_L 1L和 1 2 \mathbf{1}_2 12分别表示维度为 L L L和2的全1向量,而 θ \theta θ是一个超参数,用于控制前景/背景片段的比例。尽管比例先验对于各种动作长度的视频不适用,但我们发现它在实践中对于大多数视频效果相对较好。遵循之前的工作[77],[78],[79],我们选择迭代的Sinkhorn-Knopp算法[54]来得到上述最优传输问题的最优传输计划 T ∗ \mathbf{T}^* T∗,因为它在解决正则化传输问题方面有效,并且具有加速以提高收敛速度的潜力[80],[81]。
给定从RGB和FLOW流生成的 T ∗ , r \mathbf{T}^{*,r} T∗,r和 T ∗ , f \mathbf{T}^{*,f} T∗,f,我们将它们乘以片段数量 L L L,然后将这些值作为伪标签在两个流之间构建互相监督。OT基础的协作损失 L o t c r \mathcal{L}_{otc}^r Lotcr和 L o t c f \mathcal{L}_{otc}^f Lotcf定义为视频自适应注意力 A \mathbf{A} A与相应的最优传输 T ∗ \mathbf{T}^* T∗之间的均方误差损失。形式化地,
通过这种方式,两个流可以协同工作,并参考彼此的信息来处理前景背景分离。
E. Network Optimization
根据上述讨论,我们首先定义完整的分类损失
L
c
l
s
\mathcal{L}_{cls}
Lcls 为:
其中,我们通过利用视频自适应注意力 A r \mathbf{A}^r Ar、 A f \mathbf{A}^f Af 和 A f u s e = 1 2 ( A r + A f ) \mathbf{A}^{fuse} = \frac{1}{2} (\mathbf{A}^r + \mathbf{A}^f) Afuse=21(Ar+Af) 来加权分类激活序列 S f u l l \mathbf{S}_{full} Sfull(如公式 (6) 所示)来构建 L c l s r \mathcal{L}_{cls}^r Lclsr、 L c l s f \mathcal{L}_{cls}^f Lclsf 和 L c l s f u s e \mathcal{L}_{cls}^{fuse} Lclsfuse。最终,完整的差异损失定义为:
其中, L d i s \mathcal{L}_{dis} Ldis 和 L d i s f \mathcal{L}_{dis}^f Ldisf 对视频自适应原型 P r \mathbf{P}^r Pr 和 P f \mathbf{P}^f Pf 分别执行正交约束。此外,完整的基于 OT 的协作损失为:
最后,我们用于网络优化的总体损失函数被公式化为:
其中α和β是用于平衡每个损失函数的贡献的超参数。
F. Action Localization
在学习了富含视频特定知识的视频自适应原型后,我们利用融合的视频自适应注意力 A f u s e \mathbf{A}^{fuse} Afuse 来生成推断过程中的提议。具体而言,遵循之前的方法 [24],[51],我们首先对视频级别的预测应用阈值 η c l s \eta_{cls} ηcls,并丢弃置信度低于 η c l s \eta_{cls} ηcls 的类别。对于每个剩余的动作类别,我们使用多个阈值 η a c t \eta_{act} ηact 对融合的视频自适应前景注意力 a f g f u s e \mathbf{a}_{fg}^{fuse} afgfuse 进行阈值处理,以生成动作提议。随后,我们利用前景 CAS S f g f u s e = a f g f u s e ∘ S f u l l \mathbf{S}_{fg}^{fuse} = \mathbf{a}_{fg}^{fuse} \circ \mathbf{S}_{full} Sfgfuse=afgfuse∘Sfull 计算外-内得分 [82],为每个提议分配置信度。最后,使用类别级软-NMS [83] 来移除重叠较大的提议。
G. Discussions
在本节中,我们展示了我们的模型与四种相关方法(包括 CO2-Net [51]、RTDNet [71]、SIPE [88] 和 FixMatch [89])之间的差异。
(1) 在 CO2-Net 中,流程与我们的方法类似,其中通过两个流的融合特征计算分类分数,并且每个流中生成的注意力分数被单独处理并拼接在一起,以在训练期间过滤掉背景段。此外,他们还专注于增强跨模态交互,设计了跨模态共识模块和互学习损失。然而,如前所述,全球注意力机制在处理定位不完整性问题上存在不足。与此工作不同,我们设计了一个自适应 Transformer 网络,通过学习视频自适应原型来减轻这个问题。此外,通过将伪标签分配问题公式化为最优传输问题,我们引入了 OTC 训练策略用于跨模态交互,这比简单的互学习损失更为有效。
(2) RTDNet 将 Transformer 架构适配于视频中的动作提议生成。一个重要的修改是,他们将原始 Transformer 编码器替换为自定义的边界关注架构,以克服过度平滑问题。与 RTDNet 不同的是,在 WTAL 任务中没有地面真值来学习边界关注模块,我们使用时间卷积层替代自注意力机制,这在我们的架构中效果良好。
(3) SIPE 旨在为弱监督语义分割量身定制图像特定的原型。它通过计算像素级空间相似性与相应 CAM 之间的 IoU 来获得种子区域,然后将原型公式化为种子区域的中心。然而,直接利用片段级时间相似性和 CAS 来生成原型并不适用于 WTAL。与 SIPE 不同的是,我们引入了两个可学习的查询,并设计了一个编码器来建模时间结构和一个解码器来生成原型,这些原型在 OTC 训练策略的指导下进行学习。
(4) FixMatch 使用模型在弱增强输入上的预测作为伪标签来监督强增强输入。我们的方法在三个方面与之不同。首先,由于 RGB 和 FLOW 模态的互补性质在 WTAL 任务中非常重要,我们采用了两种模态作为输入,而 FixMatch 中则是单模态输入。其次,我们采用了两个设计相同的模型来分别处理 RGB 和 FLOW 输入,而 FixMatch 则用同一个模型处理弱增强和强增强输入。第三,我们在 RGB 和 FLOW 流之间采用了互监督,而 FixMatch 使用弱增强流来监督强增强流。
IV. EXPERIMENTAL RESULTS
V. CONCLUSION
本文提出了一种新的协同自适应变换网络(APL)用于弱监督时序动作定位。在所提出的方法中,引入了自适应变换网络(ATN)来生成视频自适应原型,以实现完整的动作定位,并设计了一种基于最优传输的协同(OTC)训练策略,以增强跨模态交互,从而更好地进行前景与背景的分离。在两个标准基准数据集上的大量实验结果证明了所提出的 APL 的有效性。
阅读总结
感觉和Revisiting Foreground and Background Separation in Weakly-supervised Temporal Action Localization这篇文章有点相似。24年公布的论文,里面的对比实验还是22年的,这周期这么长的吗?