文章信息:
发表于:ICASSP 2023
原文链接:https://ieeexplore.ieee.org/abstract/document/10096383
源码:无
ABSTRACT
弱监督时序动作定位(WTAL)旨在仅使用视频级标签在未剪辑的视频中定位动作。大多数现有方法采用“通过分类进行定位”的范式,并采用预训练识别任务的模型进行特征提取。识别任务和定位任务之间的差距导致了较差的性能。一些最新的工作尝试利用特征增强来获得更好的定位特征,并在一定程度上提升性能。然而,它们仅限于利用视频内信息,而忽略了数据集中有意义的视频间信息。在本文中,我们提出了一种新的双重特征增强(DFE)方法用于WTAL,可以利用视频内和视频间信息。对于视频内信息,设计了一个局部特征增强模块,以促进每个视频中时间维度上的特征交互。对于视频间信息,首先设计了一个全局记忆模块,用于学习跨不同视频的不同类别的表示。然后,使用全局特征增强模块,通过记忆中的全局表示来增强视频特征。此外,为了减少推理阶段因全局增强模块带来的额外计算成本,应用了蒸馏损失,强制局部分支从全局分支学习信息,从而可以在推理时移除全局增强模块。该方法在流行基准数据集上达到了最先进的性能。
1. INTRODUCTION
时序动作定位(TAL)是视频理解中的一项重要任务,旨在识别动作类别并定位每个动作实例在长未剪辑视频中的开始和结束时间戳。尽管全监督方法已经取得了优异的性能【1-3】,但昂贵的帧级标注难以承受。
最近,提出了弱监督时序动作定位方法【4-6】,旨在探索仅用视频级监督定位动作实例的更廉价方法。由于没有帧级标注,大多数方法采用“通过分类进行定位”的流程,将分类得分高的片段作为定位结果。采用预训练模型(如I3D【7】)进行特征提取是该流程的常见做法。然而,预训练的特征提取器最初是为动作识别设计的,利用的是经过良好剪辑的视频进行训练。这种定位任务与预训练的识别任务之间的不一致导致了较差的性能。
为了解决这个问题,一些之前的方法【8-10】尝试使用两种或三种不同模态流,不同视角的模态特定信息互为补充。例如,【8】试图减少两种模态输出之间的距离,并在每个时间点分别探索它们之间的相关性。然而,时间维度上的有效动作信息被忽略了。最近,一些其他方法【11-14】被提出,通过探索相同动作类别的共性以及前景和背景之间的差异来增强特征。不幸的是,这些方法仅限于一个视频内的局部信息,未能利用不同视频之间的全局信息。
与现有方法不同的是,我们提出同时利用单个视频内的局部信息(视频内)和不同视频之间的全局信息(视频间)来增强特征,如图1所示。为此,我们提出了一种新的用于弱监督时序动作定位(WTAL)的双重特征增强(DFE)方法。具体来说,为了利用视频内信息,我们设计了一个局部视频内增强模块(LEM),以促进每个视频内沿时间维度的特征交互。为了利用视频间的全局信息,我们首先设计了一个全局记忆模块(GMM),用于学习整个数据集中每个类别的判别性表示。然后,设计了一个全局视频间特征增强模块(GEM),通过记忆中的这些判别性表示来增强视频特征。LEM模块和GEM模块都是基于transformer结构【15】设计的。此外,还应用了蒸馏损失,强制局部分支从全局分支中学习信息,这有助于在推理阶段移除GMM和GEM,减少计算成本。大量实验结果表明,DFE在两个常用基准数据集(如THUMOS14【16】和ActivityNet1.2【17】)上达到了最先进的性能。
2. METHOD
Problem Formulation.弱监督时序动作定位 (WTAL)的目标是在未剪辑视频中识别和定位动作片段,只给定视频级别的标签进行训练。我们将这个问题表述如下:假设一个视频,表示为 V V V,其具有类别标签 Y = { y 1 , . . . , y c , . . . , y C } Y=\{y_1,...,y_c,...,y_C\} Y={y1,...,yc,...,yC},其中 y c ∈ { 0 , 1 } y_c\in\{0,1\} yc∈{0,1} 且 C C C 是动作类别的数量。在推理阶段,WTAL的目标是为每个测试视频预测一组动作片段 S = { ( s i , e i , c i , q i ) } S=\{(s_i,e_i,c_i,q_i)\} S={(si,ei,ci,qi)},其中 s i , e i s_i,e_i si,ei是开始和结束时间, c i , q i c_i,q_i ci,qi是预测的类别和第 i i i个片段的置信度得分。
Overview.DFE 的概述如图 2(a) 所示。首先提取每个视频的特征。然后,使用局部增强模块(LEM)在单个视频的时序维度上增强特征。将局部增强的特征输入到预测头中。根据预测头的结果选择视频代表性特征,这些特征用于更新Global Memory Module(GMM)中存储的特征。最后,采用全局增强模块(GEM)将 GMM 中的全局信息与当前视频的局部增强特征进行聚合,并将获得的特征也输入到相同的预测头中。
图2. (a) DFE概览。 o ◯ \textcircled{o} o◯, ∗ ◯ \textcircled{*} ∗◯,、⊗和 ⊕ \oplus ⊕分别表示连接、选择、矩阵乘法和矩阵加法操作。(b) 视频内增强模块在时间维度上应用自注意力机制。© 视频间增强模块聚合不同视频的全局信息。
2.1. Feature Extraction
给定输入视频 V V V,我们首先将每个未剪辑的视频 V ( i ) = { v t } t = 1 l V^{(i)}=\{v_t\}_{t=1}^l V(i)={vt}t=1l分割成不重叠的16帧片段,按照[9,18] 的方法,其中 l l l 是片段的数量。然后,使用在 Kinetics-400 数据集[19]上预训练的 I3D[7]模型从这些片段中编码外观(RGB)和运动(光流)信息。从特征提取器获得的特征维度为1024,包括 RGB 流和光流。RCB 流和光流的特征分别表示为 F R G B ∈ R l × d F_{RGB}\in\mathbb{R}^{l\times d} FRGB∈Rl×d 和 F f l o w ∈ R l × d F_{flow}\in{\mathbb{R}}^{l\times d} Fflow∈Rl×d,其中 d d d 表示特征向量的维度。我们将 F R G B F_{RGB} FRGB 和 F f l o w F_{flow} Fflow 作为后续网络的输入。
2.2. Local intra-video Enhancement Module
对于具有时间维度 T T T的输入特征,我们以 RGB 流为例进行说明。将 F R G B ∈ R T × d F_{RGB}\in\mathbb{R}^{T\times d} FRGB∈RT×d中的每个片段级特征作为时间标记,我们首先使用一个卷积层(后跟一个层归一化)以更好地在特征维度上整合每个时间标记的局部上下文。在输入 Transformer层之前,绝对位置嵌入[15]被添加到特征中,以保留时间标记的位置信息。使用自注意力机制,当前视频在时间维度上的综合上下文被交互和结合。如图 2 ( b ) \color{red}{2(\mathrm{b})} 2(b)所示,我们使用自注意力机制获得了局部增强特征 F R G B ′ F_{RGB}^{\prime} FRGB′,该机制由参数 W q , W k , W v ∈ R d × d W^q,W^k,W^v\in\mathbb{R}^{d\times d} Wq,Wk,Wv∈Rd×d表示。
在最后一个维度上执行 softmax 激活。增强的光流特征
F
f
l
o
w
′
F_{flow}^{\prime}
Fflow′以类似的方式获得,但使用不同的一组自注意力参数。然后,将
F
R
G
B
′
F_{RGB}^{\prime}
FRGB′和
F
f
l
o
w
′
F_{flow}^{\prime}
Fflow′连接起来得到
F
L
∈
R
T
×
D
F^L\in\mathbb{R}^{T\times D}
FL∈RT×D作为后续模块的输入,其中
D
=
2
d
D=2d
D=2d。我们称将
F
L
F^L
FL 输入到预测头的分支为 LEM 分支。根据[9],预测头由两个 MLP 组成。其中一个有两个全连接层,并预测类激活序列结果
O
L
∈
R
T
×
(
C
+
1
)
O^L\in\mathbb{R}^{T\times(C+1)}
OL∈RT×(C+1),另一个有三个全连接层并预测前景注意力权重
B
∈
R
T
×
1
B\in\mathbb{R}^{T\times1}
B∈RT×1。
2.3. Global Memory Module
GMM中的记忆 M ∈ R C × D M\in\mathbb{R}^{C\times D} M∈RC×D存储了整个数据集中每个动作类别的聚合特征。为了更新 M M M,首先根据视频的标签基于 O L O^L OL选择相应的序列 H ∈ R T × C ′ H\in\mathbb{R}^{{T}\times C^{\prime}} H∈RT×C′,这里 C ′ C^{\prime} C′表示视频中存在的动作类别总数。然后,对于 H H H中的每个动作序列,我们从 F L F^L FL中选择在 K K K个时间位置上具有最高置信度分数的特征作为该视频的代表性特征 R ∈ R C ′ × K × D R\in\mathbb{R}^{C^{\prime}\times K\times D} R∈RC′×K×D。
设
R
c
,
i
∈
R
D
R_{c,i}\in\mathbb{R}^D
Rc,i∈RD为
R
R
R中第
c
c
c类别的第
i
i
i个特征,
M
c
∈
R
D
M_c\in\mathbb{R}^D
Mc∈RD为记忆
M
M
M中第
c
c
c类别的特征。我们可以计算
R
c
,
i
R_{c,i}
Rc,i和
M
c
M_c
Mc之间的余弦相似度,记为
a
c
,
i
a_{c,i}
ac,i。然后我们使用余弦相似度来计算需要用于更新记忆的视频转换信息:
我们应用参数动量
m
n
m_n
mn来更新记忆内容。
其中,
n
n
n表示当前迭代次数,
N
N
N表示最大迭代次数,
p
p
p表示更新率。我们设定
m
0
m_0
m0为0.9,
p
p
p为0.5。更新后的记忆特征如下:
为了简化,在其他部分中省略了记忆
M
M
M的下标
n
n
n。
2.4. Global inter-video feature Enhancement Module
在这个模块中,我们试图将全局信息特征聚合到局部增强特征
F
L
F^L
FL中。除了从记忆
M
M
M中选择全局前景动作特征外,我们还从
B
B
B中具有最低分数的时间位置中选择一个背景代表性特征作为
F
L
F^L
FL中的背景特征,将其与
M
M
M连接起来,得到一个新的记忆特征
M
′
∈
R
(
C
+
1
)
×
D
M^{\prime}\in\mathbb{R}^{(C+1)\times D}
M′∈R(C+1)×D。我们之所以不在记忆中学习一个全局背景特征,是因为背景在不同视频中可能会有所不同,即使动作相同,如图1所示。在我们的设计中,背景特征来自于输入视频,并且专门为输入视频定制。首先,我们将分类结果
O
L
O^L
OL与记忆特征
M
′
M^\prime
M′进行聚合:
得到的结果 U ∈ R T × D U∈\mathbb{R}^{T×D} U∈RT×D包含特定于视频的本地信息和全局信息。然后,
图2( c)中展示的注意力机制,参数化为一组参数
W
ˉ
q
,
W
ˉ
k
,
W
ˉ
v
,
W
ˉ
o
∈
R
D
×
D
\bar{W}^q, \bar{W}^k, \bar{W}^v, \bar{W}^o\in\mathbb{R}^{D\times D}
Wˉq,Wˉk,Wˉv,Wˉo∈RD×D,被用来融合
U
U
U和
F
L
F^L
FL:
与LEM分支类似,我们将这个分支视为GEM分支。最后,我们将
F
G
F^G
FG输入到预测头中,以获得类别激活序列结果
O
G
{O}^G
OG和前景注意力权重
B
G
B^G
BG。
2.5. Training Objectives
我们使用文献[9]中的损失函数来约束LEM分支的输出,相应的损失记为 L L L_L LL。采用文献[18]中的top-k多实例学习损失来约束GEM分支的输出,该损失记为 L G L_G LG。
由于记忆包含了不同动作类别的特征,我们进一步将 M M M输入到预测头中,得到类别激活序列结果 O M ∈ R C × ( C + 1 ) O^M\in\mathbb{R}^{C\times(C+1)} OM∈RC×(C+1),并通过交叉熵损失函数对其进行监督。我们将该损失记为 L M L_M LM。
为了减少推理计算成本,我们通过在 O L O_L OL和 O G O_G OG之间的蒸馏损失,将GEM分支中学习到的全局信息蒸馏到LEM分支中:
在
L
D
L_D
LD的帮助下,我们可以在推理阶段移除GEM分支。总损失
L
=
0.5
L
D
+
L
L
+
L
G
+
L
M
L = 0.5L_D + L_L + L_G + L_M
L=0.5LD+LL+LG+LM是不同损失的总和。
3. EXPERIMENT
4. CONCLUSION
在本文中,我们提出了一种新颖的框架,该框架聚合了单个视频内的有效局部信息和不同视频之间的全局信息。全局信息可以从全局增强分支蒸馏到局部增强分支,从而在推理阶段实现更好的性能。在两个流行的基准上进行的大量实验表明了我们方法的最新性能。
阅读总结
文献9这么多损失,作者到底用了哪个,没说清楚吧。