Cross-modal Consensus Network for Weakly Supervised Temporal Action Localization 论文阅读
文章信息:
发表于:2021MM
原文链接:https://arxiv.org/abs/2107.12589
源码:https://github.com/harlanhong/MM2021-CO2-Net
ABSTRACT
弱监督时序动作定位(WS-TAL)是一项具有挑战性的任务,旨在通过视频级别的分类监督,在给定的视频中定位动作实例。以往的研究直接使用从预训练特征编码器中提取的外观和运动特征,例如特征拼接或分数级融合。在这项工作中,我们认为从预训练提取器(例如I3D)提取的特征是为修剪视频动作分类而训练的,但并不特定用于WS-TAL任务,导致不可避免的冗余和次优结果。因此,需要对特征进行重新校准以减少与任务无关的信息冗余。在这里,我们提出了一种跨模态共识网络(CO 2 _2 2-Net)来解决这个问题。在CO 2 _2 2-Net中,我们主要引入了两个相同的跨模态共识模块(CCM),设计了一种跨模态注意力机制,使用主要模态的全局信息和辅助模态的跨模态局部信息来过滤掉与任务无关的信息冗余。此外,我们进一步探索了模态间的一致性,我们将每个CCM得出的注意力权重视为另一个CCM得出的注意力权重的伪目标,以保持两个CCM得出预测的一致性,形成一种互学习的方式。最后,我们在两个常用的时序动作定位数据集THUMOS14和ActivityNet1.2上进行了大量实验,验证了我们的方法,并取得了最先进的结果。实验结果表明,我们提出的跨模态共识模块可以为时序动作定位生成更具代表性的特征。
1 INTRODUCTION
时序动作定位是一项任务,旨在定位动作实例的开始和结束时间戳并识别其类别。近年来,许多研究[30, 51, 52, 54]致力于全监督方法并取得了重大成就。然而,这些全监督方法需要大量的手动帧/片段级别的注释。为了解决这个问题,许多弱监督时序动作定位(WS-TAL)方法[13, 14, 25, 38, 50]被提出,以探索一种高效的方法,通过仅使用视频级别的监督(这更容易由标注者获得)来检测给定视频中的动作实例。
与其他弱监督视频理解任务如视频异常检测[8, 40]和视频亮点检测[10]一样,大多数现有的弱监督时序动作定位(WS-TAL)方法基于多实例学习(MIL)模式[13, 19, 20, 23, 50]开发其框架。这些方法首先预测每个片段的分类概率,然后将它们聚合为视频级别的预测。最后,他们使用给定的视频级别标签进行优化过程。其中,一些研究[19, 23, 32, 50]引入了注意力模块,通过抑制背景部分来提高识别前景的能力。为了进行动作完整性建模,Islam等人[12]利用注意力模块去除视频中最具辨识度的部分,而专注于辨识度较低的部分。关于特征学习,大多数WS-TAL方法[13, 35]主要在其中间特征上应用对比学习损失。Lee等人[20]提出通过特征幅度的不一致性来区分前景和背景。
上述方法使用包含与任务无关的信息冗余[8, 21, 43, 44]的原始提取特征,直接对每个片段进行预测。然而,由于这些特征是为另一任务(即修剪视频动作分类)训练而提取的,不可避免地引入了冗余,它们的性能受到提取特征质量的限制,仅能获得次优结果[8, 21]。直观上,对特定任务特征进行重新校准是解决这个问题的一种方法。与高时间和计算成本的微调特征提取器[2, 8, 48]不同,我们探索以更高效的方式重新校准特征。在这项工作中,我们的直觉很简单:RGB和FLOW特征包含来自不同数据角度的模态特定信息(即外观和运动信息)。因此,我们可以借助其自身的全局上下文信息和来自不同模态不同角度的局部上下文信息,过滤掉某一模态中包含的冗余(如图1所示)。
图1:我们提出的跨模态共识模块首先从主模态中编码模态特定的全局上下文,从辅助模态的当前片段中编码跨模态局部聚焦的信息,然后它们合作在建模通道特征响应中达成共识,并通过信息冗余过滤增强特征。
如上所述,预训练任务与目标任务之间的不一致导致提取特征中不可避免地包含与任务无关的信息(称为冗余),这限制了优化效果,特别是在弱监督的情况下。以往的研究较少关注这个问题,而是直接使用特征。在此,我们旨在通过利用两种不同模态(即RGB和FLOW特征)的信息,在一开始就重新校准特征。在这项工作中,我们开发了一种跨模态共识网络(CO 2 _2 2-Net),以重新校准视频中每个片段的每种模态的表示。CO 2 _2 2-Net包含两个相同的跨模态共识模块(CCM)。具体来说,两种类型的模态特征被输入到两个CCM中,其中一种作为主模态,另一种作为辅助模态。在CCM中,我们从主模态获得模态特定的全局上下文信息,并从辅助模态获得跨模态局部聚焦描述符。然后我们将它们聚合,生成一个通道级描述符,可以用来过滤掉与任务无关的信息冗余。直观地说,通过主模态的全局信息,CCM可以使用辅助模态的不同角度的信息来判断主模态的某一部分是否为与任务无关的信息冗余。因此,我们分别从两个CCM中获得了过滤冗余后的RGB增强特征和FLOW增强特征。然后我们利用这两个增强特征分别估计模态特定的注意力权重,并在这两个估计的注意力权重上应用互学习损失以实现相互促进。此外,我们还应用了top-k多实例学习损失[13, 20, 35],这在每个视频的时序类激活图(T-CAM)学习中被广泛使用。
最后,我们在两个公共的时序动作定位基准数据集上进行了大量实验,即THUMOS14数据集[15]和Activity1.2数据集[7]。在实验中,我们研究并讨论了我们提出的跨模态共识模块与其他特征融合方式(例如加法和拼接函数)的效果。实验结果表明,我们的CO2-Net在两个公共数据集上实现了最先进的性能,验证了其在时序动作定位方面的有效性。总结来说,我们的贡献有三点:
- 据我们所知,这是首个研究通过互学习进行多模态特征重新校准和模态一致性的时序动作定位工作。
- 我们提出了一个框架,即CO 2 _2 2-Net,用于时间动作定位,以探索一种新的跨模态注意机制,重新校准每个模态的特征。
- 我们在两个公共基准上进行了广泛的实验,我们提出的方法达到了最先进的结果。
2 RELATEDWORKS
Weakly Supervised Temporal Action Localization.弱监督时序动作定位提供了一种无需大量标注即可检测动作实例的高效方法。许多工作主要使用多实例学习(MIL)框架[12, 13, 19, 20, 24, 25, 32]来解决这个问题。几项研究[13, 35]主要通过聚合片段级别的类别得分来生成视频级别的预测,并从视频级别的动作标签中学习。在这种方法中,为了准确预测视频级别的标签,背景帧被迫被误分类为动作类别。为了解决这个问题,许多工作[12, 19]在其框架中应用了注意力模块,以抑制背景帧的激活,从而提高定位性能。Lee等人[19]引入了一个用于背景的辅助类别,并提出了一种具有不对称训练策略的双分支权重共享架构。此外,基于MIL的方法只关注优化视频中最具辨识度的片段[5, 8]。为了进行动作完整性建模,一些研究[12, 27]采用了互补学习方案,即去掉视频中最具辨识度的部分,但关注互补部分。此外,一些工作[33, 52]尝试在自训练机制下优化其框架。Zhai等人[52]将最后一个周期的输出视为伪标签,并使用这些伪标签来细化网络。
与上述方法不同,这是第一个考虑利用不同模态的共识来过滤掉每个模态中与任务无关的信息冗余的研究。我们的方法旨在重新校准表示,使每个模态的信息冗余减少,从而产生更准确的预测。
Modalities Fusion.最近,深度神经网络在多模态聚类问题中被广泛应用,因其强大的特征转换能力。许多计算机视觉模型[6, 10, 16, 28, 36, 45–47]在其框架中采用多种模态以提升性能。不同的模态可以以适当的方式互补彼此。早期,Ngiam等人[31]采用深度自编码器网络架构来学习多模态数据的共同表示,在语音和视觉任务中取得了显著的性能提升。一些研究[1, 10]结合视觉模态和音频模态来解决特定任务。一般而言,视频和音频包含不同的模态信息,但由于视觉和音频事件往往同时发生,它们可以互相增强。Hong等人[10]利用多头结构中的音频模态来辅助视觉模态定位视频亮点。
在这项工作中,我们并没有尝试微调特征提取器,而是通过一种新颖的重新校准方法来过滤特定模态中的与任务无关的信息冗余。我们通过从自身获取全局上下文和从另一模态获取局部上下文信息之间达成共识,与上述方法不同,这些方法平等对待多模态信息。
3 METHOD
视频是一种典型的多媒体类型,可以转化为多个模态,代表来自不同视角的信息。在这项工作中,我们提出了一种跨模态共识网络( C O 2 − N e t CO_2-Net CO2−Net),用于通过不同模态的不同视角信息重新校准每种模态的表示。
3.1 Problem Formulation
我们首先将弱监督时序动作定位 (WS-TAL)问题公式化如下:假设
V
\mathcal{V}
V表示一个包含
∣
V
∣
\left|\mathcal{V}\right|
∣V∣个视频的数
据批次,对应的视频级别类别标签为
y
y
y,其中
y
=
{
Y
(
1
)
,
.
.
.
,
Y
(
∣
V
∣
)
}
y=\{Y^{(1)},...,Y^{(|\mathcal{V}|)}\}
y={Y(1),...,Y(∣V∣)}, 而
Y
(
i
)
=
Y^{(i)}=
Y(i)=
{
y
1
(
i
)
,
.
.
.
,
y
C
(
i
)
}
=
{
0
,
1
}
C
\{y_1^{(i)},...,y_C^{(i)}\}=\{0,1\}^C
{y1(i),...,yC(i)}={0,1}C表示第
i
i
i个视频的标签,其中
C
C
C表示类别的数量。WS-TAL 的目标是学习一个函数,能够同时检测和分类所有动作实例,并为每个视频生成精确的时间戳
(
t
s
,
t
e
,
c
,
γ
)
(t_s,t_e,c,\gamma)
(ts,te,c,γ),其中
t
s
,
t
e
,
c
,
γ
t_s,t_e,c,\gamma
ts,te,c,γ分别表示相应动作提议的开始时间、结束时间、预测类别和置信度评分。
3.2 Pipeline
Feature Extraction.按照最新的WS-TAL方法[12,35],我们基于从不重叠的视频片段中提取的片段级特征序列构建了CO
2
_2
2-Net,每个片段包含16帧。外观模态(RCB)和运动模态(光流)的特征均从预训练的提取器(即I3D[3]) 中提取。每个片段的外观和运动模态特征均为1024维。对于第
i
i
i 个包含
T
T
T 个片段的视频,我们使用矩阵张量
X
R
G
B
∈
R
T
×
D
X_{RGB}\in\mathbb{R}^{T\times D}
XRGB∈RT×D和
X
F
L
O
W
∈
R
T
×
D
X_{FLOW}\in\mathbb{R}^{T\times D}
XFLOW∈RT×D分别表示整个视频的RCB和FLOW特征,其中
D
D
D表示特征向量的维度。
Structure Overview.图2展示了我们提出的CO2-Net的完整流程。RGB和FLOW特征被输入到两个相同的跨模态共识模块(CCM)中。在每个CCM中,我们选择两种模态中的一种作为主模态,通过利用自身的全局上下文信息和来自另一种(辅助)模态的跨模态局部聚焦信息,去除与任务无关的信息冗余,从而增强主模态。因此,我们可以为每种模态获得更具任务特异性的表示。然后,增强后的表示用于生成注意力权重,通过一个由两层卷积层组成的注意力单元,指示每个片段为前景的概率。我们分别聚合由两个CCM的增强特征生成的两个注意力权重,以生成可在测试阶段使用的最终注意力权重。同时,我们还融合了两个增强特征,并将它们输入到分类器中,以预测每个片段的类别概率。
图2:所提出的跨模态共识网络(CO 2 _2 2-Net)概览,包含两个相同的CCM。CCM通过自身的全局上下文信息和来自辅助模态的局部信息的共识,过滤掉主模态中与任务无关的冗余信息,并生成主模态的增强特征。增强后的特征将被输入到注意力单元,以估计模态特定的注意力权重。一方面,我们聚合两个注意力权重以生成最终的注意力权重 R \mathscr{R} R,而这两个模态特定的注意力权重通过互学习损失 L m l \mathcal{L}_{ml} Lml进行优化以实现互相促进。另一方面,我们融合增强特征并将它们输入分类器,以预测时间类激活图(T-CAM)。最后,我们应用top-k多实例学习损失(即 L m i l o r g \mathcal{L}_{mil}^{org} Lmilorg和 L m i l s u p p \mathcal{L}_{mil}^{supp} Lmilsupp)以及共活动相似性损失(即 L c a s \mathcal{L}_{cas} Lcas)来优化整个框架。
3.3 Cross-modal Consensus Module
在这项工作中,我们在进行下游学习任务之前,采用跨模态共识模块来过滤每种模态中与任务无关的信息冗余。所提出的跨模态共识模块由全局上下文感知单元和跨模态感知单元构成,用以区分信息冗余并通过通道级抑制对特征进行过滤。如图3所示,我们将外观模态(RGB特征)作为主模态,将运动模态(FLOW特征)作为辅助模态输入到我们提出的跨模态共识模块中,同时在两种模态角色交换时执行相同的工作流程。为了方便表达,在本文其余部分中,我们以RGB特征作为主模态特征为例进行说明。
由于特征是从在与WS-TAL任务无关的大型数据集上预训练的编码器中提取的,因此这些特征可能包含一些与任务无关的误导性冗余,从而限制了定位性能。给定主模态和辅助模态,我们的目标不是直接将它们连接,而是设计一种机制来过滤主模态中的任务无关信息冗余。受到自注意力机制[42]和挤压与激励块[11]的启发,我们开发了一种类似的方式,称为跨模态注意力机制,用于区分信息冗余并过滤它们。
在全局上下文感知单元中,我们首先将模态特定的全局上下文信息压缩为视频级特征
X
g
∈
R
D
X_g\in\mathbb{R}^D
Xg∈RD,该特征是通过在时间维度上使用平均池化操作符
ψ
(
⋅
)
\psi(\cdot)
ψ(⋅)从主模态
X
R
G
B
X_{RGB}
XRGB聚合而来的。然后,我们采用卷积层
F
G
{F^G}
FG来充分捕捉通道间的依赖关系,并生成模态特定的全局感知描述符
M
G
M^G
MG。这个过程如下所示:
由于多种模态从不同的角度提供信息,我们可以利用辅助模态的信息来检测主模态中的与任务无关的信息冗余。因此,在跨模态感知单元中,我们旨在从辅助模态特征
X
F
L
O
W
X_{FLOW}
XFLOW中捕捉跨模态局部特定信息。在这里,我们引入了一个卷积层
F
L
F^L
FL,用于嵌入辅助模态的特征,以生成跨模态局部聚焦描述符
M
L
M^L
ML,如下所示:
在这里,我们通过将模态特定的全局感知描述符
M
G
M^G
MG与跨模态局部聚焦描述符
M
L
M^L
ML相乘,获得用于特征重新校准的通道级描述符
M
M
M。最终,任务无关的信息冗余通过跨模态注意力机制被过滤掉,过程如下:
其中,
σ
(
⋅
)
\sigma(\cdot)
σ(⋅)是一个 Sigmoid 函数,而"⊗"表示逐元素乘法运算符。值得注意的是,
M
G
M^G
MG和
M
L
M^L
ML可以被视为自注意力模块[42]中的“查询”和“键”。我们使用 Siqmoid 函数代替 softmax 运算符,以生成通道级重新校准权重,从而增强原始的主模态特征
X
R
G
B
X_{RGB}
XRGB。
图3
,
3.4 Dual Modal-specific Attention Units
在获得增强特征之后,我们尝试生成指示每个片段级别前景概率的模态特定时间注意力权重。在这里,遵循之前的工作[12, 19],我们将增强特征输入到注意力单元
F
R
G
B
A
F^{A}_{RGB}
FRGBA中,用于生成模态特定的注意力权重:
这里的
F
R
G
B
A
(
⋅
)
F_{RGB}^{A}(\cdot)
FRGBA(⋅) 是用于 RGB 的注意力单元,由三个卷积层组成,与用于 FLOW 的注意力单元
F
F
L
O
W
A
F_{FLOW}^A
FFLOWA 相同。
在我们提出的CO 2 _2 2-Net中有两个CCM模块,其中一个CCM将外观模态作为主模态,运动模态作为辅助模态,从中获取了RGB增强特征 X ‾ R G B \overline{X}_{RGB} XRGB 和模态特定的注意力权重 A R G B \mathcal{A}_{RGB} ARGB。另一个CCM中,两种模态的角色与前一个CCM相反,从中获得了FLOW增强特征 X ‾ F L O W \overline{X}_{FLOW} XFLOW 和模态特定的注意力权重 A F L O W \mathcal{A}_{FLOW} AFLOW。
在获得增强特征(即
A
‾
R
G
B
\overline{A}_{RGB}
ARGB 和
A
‾
F
L
O
W
\overline{A}_{FLOW}
AFLOW)以及模态特定的注意力权重(即
H
R
G
B
\mathscr{H}_{RGB}
HRGB 和
H
F
L
O
W
\mathscr{H}_{FLOW}
HFLOW)之后,我们首先融合这两组注意力权重:
我们认为,由两个增强特征分别产生的两组模态特定注意力权重对视频有不同的侧重,而融合后的注意力权重
A
\mathcal{A}
A 可以更好地表示片段为前景的概率,因为它在两组模态特定注意力权重之间进行了权衡。最后,我们将两种增强特征(即
X
‾
R
G
B
\overline{X}_{RGB}
XRGB 和
X
‾
F
L
O
W
\overline{X}_{FLOW}
XFLOW)连接起来,形成
X
‾
\overline{X}
X,并将其输入包含三层卷积层的分类器,以生成给定视频的时间类激活图
S
∈
R
T
×
(
C
+
1
)
\mathcal{S}\in\mathbb{R}^T\times(C+1)
S∈RT×(C+1),其中第
(
C
+
1
)
(C+1)
(C+1) 类是背景类。
3.5 Optimizing Process
图4:相互学习过程的工作流程说明。由双模型特定注意单元生成的两个时间注意权重通过将对方视为伪标签并向后停止梯度来相互学习。
Constraints on AttentionWeights.在这里,我们已经获得了两种模态特定的注意力权重(即
A
R
G
B
\mathcal{A}_{RGB}
ARGB 和
A
F
L
O
W
\mathcal{A}_{FLOW}
AFLOW)以及融合后的注意力权重
A
\mathcal{A}
A。然后,我们首先在两种模态特定的注意力权重上应用互学习方案:
其中,
ϕ
(
⋅
)
\phi(\cdot)
ϕ(⋅)表示一个截断输入梯度的函数,而
δ
(
⋅
)
\delta(\cdot)
δ(⋅)表示一个相似度度量函数,
α
\alpha
α是一个超参数。在公式(6)中,我们将
A
R
G
B
\mathcal{A}_{RGB}
ARGB和
A
F
L
O
W
\mathcal{A}_{FLOW}
AFLOW视为彼此的伪标签(如图4所示),以便它们可以相互学习并对齐注意力权重。这里,我们采用均方误差(MSE)作为公式(6)中的函数
δ
(
⋅
)
\delta(\cdot)
δ(⋅)。除了MSE,我们还讨论了其他相似度度量函数 (即 Jensen-Shannon(JS)散度、Kullback-Leibler(KL)散度和平均绝对误差(MAE)),这些函数在公式(6)中应用,详见第4.4节。此外,我们可以发现,注意力权重的分布应该与背景类在
S
S
S中的概率分布相反:
,
其中,
∣
⋅
∣
|\cdot|
∣⋅∣是绝对值函数,
s
C
+
1
s_{C+1}
sC+1是 T-CAM
S
S
S中的最后一列,表示每个片段为背景的概率。此外,我
们还利用归一化损失
L
n
o
r
m
\mathcal{L}_{norm}
Lnorm使注意力权重更加极化:
其中
∣
∣
⋅
∣
∣
1
是L1-norm 函数.
\mathrm{其中~}||\cdot||_1\text{ 是L1-norm 函数.}
其中 ∣∣⋅∣∣1 是L1-norm 函数.
Constraints on T-CAMs and Features.
为了更好地识别背景活动,我们应用注意力权重
A
\mathcal{A}
A来抑制 T-CAM
S
S
S 中的背景片段,并获得抑制后的 T-CAM
S
‾
\overline{S}
S:
在这项工作中,我们在 T-CAM
S
S
S 和
S
‾
\overline{S}
S 上应用了广泛使用的 top-k 多实例学习损失[35],表示为
L
m
i
l
=
L
m
i
l
o
r
g
+
L
m
i
l
s
u
p
p
\mathcal{L}_{mil}=\mathcal{L}_{mil}^{org}+\mathcal{L}_{mil}^{supp}
Lmil=Lmilorg+Lmilsupp。此外,我们在融合特征
X
‾
\overline{X}
X 和抑制后的 T-CAM
S
‾
\overline{S}
S 上应用了协同活动相似性损失
L
c
a
s
1
[
35
]
\mathcal{L}_{cas}^1[35]
Lcas1[35], 以学习更好的特征表示和 T-CAM。因为我们在第 3.6 节中在测试阶段利用了抑制后的 TCAM,因此我们只在抑制后的 T-CAM 上应用
L
c
a
s
\mathcal{L}_{cas}
Lcas。
其中, λ 1 \lambda_1 λ1和 λ 2 \lambda_2 λ2 是超参数。通过优化最终目标函数,我们的框架可以学习到更稳健的特征表示,从而生成更准确的 T-CAM。
Final Objective Function.最后,我们将上述所有目标函数进行汇总,形成整个框架优化的最终目标函数:
这里,𝜆1和𝜆2是超参数。我们的框架可以通过优化最终目标函数来学习更稳健的表示,从而产生更精确的T-CAM。
3.6 Temporal Action Localization
在测试阶段,我们遵循[12]中的流程。首先,我们计算视频级别的分类概率,以指示给定视频中每个动作类别发生的可能性。然后,我们设置一个阈值 (\tau) 来确定视频中要定位的动作类别。对于选定的动作类别,我们对注意力权重 A \mathcal{A} A进行阈值处理,以去除背景片段,并通过选择剩余片段的连续部分来获得与类别无关的动作提案。如第3.1节所述,候选动作提案是一个四元组: ( t s , t e , c , γ ) (t_s,t_e,c,\gamma) (ts,te,c,γ)。获得动作提案后,我们利用抑制后的 T-CAM S \mathcal{S} S 使用 Outer-Inter Score [38] 计算每个提案的类别特定分数 γ \gamma γ。此外,我们使用多个阈值对注意力权重进行阈值处理,以通过不同尺度级别的提案丰富提案集。进一步,我们使用软非极大值抑制来删除重叠的提案。
4 EXPERIMENTS
在本节中,我们在两个公共时间动作定位基准上进行了广泛的实验,即THUMOS14[15]和ActivityNet1.2数据集[7],以调查我们提出的框架的有效性。此外,我们还进行了消融研究,以讨论CO 2 2 2-Net中的每个组分,并将一些结果可视化。
4.1 Datasets and Metrics
我们在两个公共基准数据集(即THUMOS14数据集[15]和ActivityNet1.2数据集[7])上评估了我们提出的方法,用于时间动作定位。
THUMOS14.在THUMOS14数据集中有200个验证视频和213个测试视频,涉及20个动作类。这些视频有不同的长度,这些动作经常出现在视频中。根据之前的工作[12,35],我们使用200个验证视频来训练我们的框架,使用213个测试视频进行测试。
ActivityNet1.2.ActivityNet1.2数据集是一个带有粗糙注释的大型时态动作定位数据集。它由100个动作类的4819个训练视频、2383个验证视频和2489个测试视频组成。我们无法获得测试视频的ground-truth注释,因为它们被保留用于挑战。因此,我们利用验证视频进行测试[12,13]。
Evaluation Metrics.在本工作中,我们使用在不同交并比 (IoU) 阈值下的平均精度均值 (mAP) 来评估我们的方法,这是时间动作定位的标准评估指标 [35]。此外,我们利用官方发布的评估代码来测量我们的结果。
4.2 Implementation Details
在本工作中,我们在 PyTorch [34] 中实现了我们的方法。最初,我们应用预训练于 Kinetics-400 [17] 的 I3D 网络 [3] 来提取每个视频的 RGB 和 FLOW 特征,遵循先前的工作 [13, 35]。我们从视频中抽取连续的非重叠的 16 帧作为一个片段,每个片段的每种模态的特征都是 1024 维。在训练阶段,我们为 THUMOS14 数据集随机抽取 500 个片段,为 ActivityNet1.2 数据集随机抽取 60 个片段,而在测试阶段则使用所有片段。为了公平比较,我们没有对特征提取器(即 I3D)进行微调。注意力单元由 3 个卷积层构成,其输出维度分别为 512、512 和 1,卷积核大小分别为 3、3 和 1。分类模块包含 3 个时间卷积层。在每个卷积层之间,我们使用了Dropout正则化,概率为 0.7。
对于每个超参数,我们将最终目标函数中的最后两项正则化设置为 λ 1 \lambda_1 λ1 = λ 2 \lambda_2 λ2 = 0.8,并设置 𝛼 = 0.5,以在两个数据集上获得最佳性能。在训练过程中,我们每批次采样10个视频,其中包含3对视频,每对视频具有相同的分类标签用于共同活动相似性损失 L c a s \mathcal{L}_{cas} Lcas。我们采用 Adam 优化器 [18] 进行优化,其中学习率设置为 THUMOS14 数据集为 5e-5,权重衰减率为 0.001;对于 ActivityNet1.2 数据集,学习率为 3e-5,权重衰减率为 5e-4。所有实验在单个 NVIDIA GTX TITAN (Pascal) GPU 上运行。
4.3 Comparison With State-of-the-art Methods
5 CONCLUSION
这项工作中,我们探索了用于动作定位的特征再校准,以减少冗余。我们提出了一个跨模态一致性网络来解决这个问题。我们利用跨模态一致性模块,通过辅助模态不同视角的信息,过滤主模态中的信息冗余。此外,我们应用互学习损失,使两个跨模态一致性模块相互学习,以共同提升。最后,我们进行了大量实验来验证CO2-Net的有效性,消融研究结果表明,我们提出的跨模态一致性模块有助于产生更具代表性的特征,从而提升了WS-TAL的性能。
阅读总结
现在来看,论文方法也很简单,为什么我就想不到呢。2021年的论文,挺想知道那个时候的人看到这篇论文是什么想法。现在2024都过去半年了,如今模型越来越复杂,方法越来越抽象,真是让人感到迷茫!
Constraints on AttentionWeights这里的相互学习没理解,梯度不回传指的是冻结了部分参数吗?那冻结的是哪里?有时间再研究。