Discriminability-Driven Graph Network for Weakly-supervised Temporal Action Localization 论文阅读

文章信息:
在这里插入图片描述

发表于: ICCV 2023
原文链接:https://openaccess.thecvf.com/content/ICCV2023/html/Tang_DDG-Net_Discriminability-Driven_Graph_Network_for_Weakly-supervised_Temporal_Action_Localization_ICCV_2023_paper.html
源码:https://github.com/XiaojunTang22/ICCV2023-DDGNet


Temporal Action Localization论文阅读)

Abstract

弱监督时空动作定位(WTAL)是一项实际但具有挑战性的任务。由于大规模数据集的存在,大多数现有方法使用在其他数据集上预训练的网络来提取特征,这些特征对于WTAL来说并不足够合适。为了解决这个问题,研究人员设计了几个用于特征增强的模块,这些模块改进了定位模块的性能,特别是对片段之间的时间关系进行建模。然而,所有这些方法都忽略了模糊的片段会传递矛盾信息的现象,这会降低相关片段的可辨识性。考虑到这一现象,我们提出了“辨别驱动图网络”(DDG-Net),它明确地模型化了模糊片段和具有区别性的片段,并设计了良好的连接,防止了模糊信息的传递,增强了片段级表示的可辨识性。此外,我们提出了特征一致性损失,以防止特征的同化,并驱动图卷积网络生成更具区别性的表示。对THUMOS14和ActivityNet1.2基准测试进行的大量实验证明了DDG-Net的有效性,在这两个数据集上都建立了新的最先进结果。源代码可在https://github.com/XiaojunTang22/ICCV2023-DDGNet 上获得。

1. Introduction

时空动作定位(TAL)是视频理解中一项重要而具有挑战性的任务。它旨在在未剪辑视频中定位感兴趣的动作提案的开始和结束时间戳,并识别它们的类别。由于在视频检索、监视和异常检测等领域的潜在应用,TAL引起了学术界和工业界的广泛关注。在全监督时空动作定位方面已经取得了显著进展。然而,这些方法需要帧级注释,对于大规模数据集来说是耗时且劳动密集的。因此,许多研究人员将重点放在了弱监督时空动作定位(WTAL)上。

在训练过程中,WTAL学习利用仅具有视频级别标签(即视频中的动作类别)来定位动作实例。大多数现有方法采用多实例学习(MIL)的范式,将视频视为一个包,将动作区域视为实例。然而,由于分类和定位任务之间的差距,如果没有帧级别的注释,很难定位精确的动作提议。此外,除了有区别的片段(动作或背景),未剪辑视频中还存在大量模糊的片段(例如动作背景)。例如,在“CricketBowling”动作期间,具有明显外观和快速移动的动作片段以及具有无关内容的背景片段易于被识别。相反,模糊的片段(实际上是动作)同时包含动作信息(外观相似)和背景信息(移动缓慢),这增加了区分的难度。

因此,准确定位和识别模糊片段至关重要。一些工作致力于通过分离动作和上下文来减轻动作上下文的干扰。同时,我们注意到一些工作试图对片段之间的时间关系进行建模,以获取更完整的信息。这些方法取得了一定的性能,但它们忽略了模糊信息的不利影响。当模糊片段向相似的动作或背景片段传播信息时,会一并传递模糊性。这导致模糊片段在向其他片段传递矛盾信息时降低了它们的可区分性。

受以上研究和分析的启发,我们提出了一种新颖的图网络,名为“Discriminability-Driven Graph Network”(DDG-Net),它明确地将模糊片段和具有区分性的片段分离开来,以更有效地进行具有精心设计连接的图推理。具体来说,如图1所示,我们首先将整个视频分为三种类型的片段(即伪动作、伪背景和模糊片段)。然后,我们设计了它们之间不同的连接,以确保只传递具有区分性的信息。这样,片段通过图推理从相连的片段中接收互补信息。而且,模糊片段的可区分性得到了增强,同时由于独特的连接,片段不会对其他片段造成伤害。此外,我们提出了特征一致性损失来维持定位的片段级表示的特征。我们的主要贡献可以总结如下。

  • 我们提出了一种新颖的图网络DDG-Net,它明确地对模糊和具有区分性的片段建模,采用不同类型的连接,旨在传播互补信息、增强片段级特征的可区分性,同时消除模糊信息的不良影响。
  • 我们提出了特征一致性损失与DDG-Net,它防止了片段级特征的同化,并推动图卷积网络生成更具区分性的表示。
  • Extensive experiments demonstrate that our method is effective, and establishes new state-of-the-art results on THUMOS14 and ActivityNet1.2 datasets.

2. Related Work

Weakly-supervised temporal action localization.近年来,弱监督下的时间动作定位引起了学术界的越来越多的关注。弱监督包括单帧注释[7, 22, 25, 36, 38, 57]和视频级别标签[19, 23, 40, 55, 60, 63, 65, 67],我们关注后者。UntrimmedNet [54]首次通过分类器模块和选择模块解决了这一任务。STPN [41]利用稀疏损失抑制不重要的选择。WTALC [42]对同一动作类别的视频级别特征之间的距离进行惩罚。Bas-Net [26]引入背景类作为辅助来提出一个双分支架构,并抑制背景片段的激活。[11, 51]通过建模时间关系生成更完整的片段级表示。[20, 52, 64]从修剪后的视频中学习额外的知识。DELU [5]引入了证据学习,有效缓解了动作与背景之间的模糊性。[33, 34, 43]努力通过建模动作上下文来分离动作和背景。[9, 29, 62]采用对比学习进行动作-背景分离。[61]提出了一个双流网络来消除错误的正面动作提议。CO2-Net [13]利用跨模态通道注意力来过滤多余的信息。[21, 58]旨在通过协作学习训练一个更强大的模型。这些方法利用RGB和光流的协作,这对我们的模型也很重要。

如上所述,大多数现有方法都致力于改进定位模块。与它们不同的是,我们专注于为WTAL建模更适用的特征。具体而言,我们通过图网络传递互补信息并消除模糊性,生成更具区分性的特征。

Graph-based Weakly-supervised temporal action localization.Rashid等人[44]通过将片段视为节点来构建稀疏的动作图,以连接相关的片段。DGCNN [47]构建了一个动态图,具有各种关系,以充分利用伪动作片段之间的时间和上下文关系。ACGNet [59]通过图推断传播互补信息。尽管这些工作通过图网络增强了片段特征,但它们忽略了模糊信息的影响,这可能会降低片段级表示的可区分性。

与这些图网络不同,我们将整个视频细分为具有辨别性和模糊性的片段,以构建不同类型的连接,考虑到模糊片段可能会混淆相关的片段。特别地,我们强制模糊片段永远不会向其他片段传播信息,只从具有辨别性的片段接收相关信息。通过这种方式,我们增强了模糊片段的可区分性,并防止了模糊信息的传播。

3. Base Model

在本节中,我们介绍了基于 DELU [5] 的 WTAL 的基础模型。首先我们定义了问题的形式化表述(第 3.1 节)。然后我们提供了基础模型的流程(第 3.2 节)。

3.1. Problem Formulation

在训练中,给定一个未修剪的视频 V \mathbb{V} V 及其对应的多热编码的动作类别标签 y ∈ { 0 , 1 } C y\in\{0,1\}^C y{0,1}C,其中 C C C 是动作类别的数量,时序动作定位的目标是在测试视频中获取一组动作实例 S S S = ( s i , e i , c i , φ i ) ( s_{i}, e_{i}, c_{i}, \varphi _{i}) (si,ei,ci,φi),其中 s i s_{i} si e i e_{i} ei 分别是相应动作实例的开始和结束时间戳, c i c_i ci φ i \varphi_i φi 是预测的动作类别和相关的置信度得分。

3.2. Pipeline

在之前的工作[5, 13, 26]的基础上,我们首先将未修剪的视频分割为 T T T 个不重叠的16帧片段。然后,通过预训练网络从 RGB 和光流流中提取片段级特征。为了方便起见,我们将片段特征表示为 F ∗ = [ f 1 ∗ , . . . , f T ∗ ] ∈ F^* = [ f_1^* , . . . , f_T^* ] \in F=[f1,...,fT] R D × T \mathbb{R}^{D\times T} RD×T,其中 D D D 是特征的维度, ∗ ∈ { r , f } *\in\{r,f\} {r,f} 表示 RGB 和光流。

我们从 DELU [5] 中移除了跨模态一致性模块 [13],以突出我们的方法,因为它们都是用于特征增强的模块。我们在补充材料中提供了与跨模态一致性模块结合的额外结果。

在提取了 F ∗ F^* F 特征之后,它们被输入到一个注意力模块中,生成动作注意力权重如下:
在这里插入图片描述
Φ \Phi Φ 是由几个卷积层和一个 Sigmoid 函数组成的注意力模块。我们融合两个注意力序列以供后续使用。
在这里插入图片描述
然后我们通过特征融合模块和分类器生成一个分类激活序列 (CAS),具体来说,
在这里插入图片描述

⊕ \oplus 是沿着通道维度的连接操作符。 Θ \Theta Θ 是特征融合模块, Ψ \Psi Ψ 是包括 C C C 个动作类别和背景类别的分类器。我们进一步得到被抑制的 CAS p ‾ = A ⋅ p \overline{p}=\mathbb{A}\cdot p p=Ap,其中 ⋅ \cdot 表示逐元素乘法。

我们将基础模型的训练目标函数表示为 L b a s e L_{base} Lbase。在测试阶段,我们按照标准流程[5]执行时间动作定位。

4. Method

在这里插入图片描述

图2. DDG-Net的概述。基于动作权重,片段分别被预分类为伪动作、伪背景和模糊片段。它们之间连接的不同连接构成了三个子图。通过图推理为定位模块生成更具辨别性的特征。

在本节中,我们详细描述了我们的方法。DDG-NeT的架构如图2所示。我们首先给出了图的定义(第4.1节)。然后我们介绍了图的构成原则(第4.2节)。通过图推理传播补充和辨别信息(第4.3节)。为了防止片段级特征的同化,我们提出了特征一致性损失,它保持了辨别性表示的特征(第4.4节)。值得一提的是,我们的方法可以应用于任何双流模型[5, 13, 61]。

4.1. Graph Formulation

我们将完整的图表示为 G = ( V , E ) G=(V,E) G=(V,E),其中 A A A 是其邻接矩阵。在这种情况下, V V V 表示整个视频中的所有片段的集合。我们将其分为三个子集 V a , V b , V m V_a,V_b,V_m Va,Vb,Vm,分别包含伪动作、伪背景和模糊片段。 V a {V}_a Va 使用对称的邻接矩阵 A a A_a Aa 构建了一个无向图 G a G_a Ga,我们将其视为动作图。背景图 G b G_b Gb 也由 V b V_b Vb A b A_b Ab 构建。由 V V V 组成的模糊图 G m G_m Gm 的节点是一个有向图,边的方向始终是从 V a V_a Va V b V_b Vb 的节点指向 V m V_m Vm。在这样的设置下,我们为相关的辨别性片段构建了两个用于交互的子图,以及一个用于接收辨别性信息的子图。

4.2. Graph Generation

我们首先介绍片段的预分类方法。在没有帧级别标注的情况下,我们没有监督片段级别的类别。借鉴之前的方法[33],我们将片段的动作权重视为判断依据。我们同时考虑 A r \mathbb{A}^r Ar A f \mathbb{A}^f Af。对于每个时间戳 t t t,当 A t r \mathbb{A}_t^r Atr A t f \mathbb{A}_t^f Atf 超过动作阈值 η \eta η 时,被视为伪动作片段。同样,当 A t r \mathbb{A}_t^r Atr A t f \mathbb{A}_t^f Atf 低于阈值 1- η \eta η 时,被视为伪背景片段。如果一个片段既不属于动作也不属于背景,则被视为模糊片段。

我们简单地将特征相似度视为相邻节点之间的边权重。特别地,我们分别构建图 G ∗ G^* G 并计算其邻接矩阵 A ∗ A^* A,用于 RGB 特征和光流特征。利用 RGB 和光流的协同作用,我们取它们的邻接矩阵的平均值,而不是分别用于图推理。形式化地说,

在这里插入图片描述
s s s 是相似性度量,在我们的实验中是余弦相似度。

为了简洁起见,在以下内容中我们适当省略了 RGB 和光流的标识。根据片段的划分,我们构建了三个子图。

邻接矩阵 A a A_a Aa A b A_b Ab 的值与相应位置的 A A A 的值一致。模糊图 G m G_m Gm 是一个有向图,其邻接矩阵 A m A_m Am 部分被遮蔽。形式上,
在这里插入图片描述
在这种处理下,我们利用了具有辨别性的片段的互补信息,并放弃了模糊片段的混淆信息。通过不同类型的连接,辨别性信息被传递给相关的片段,而模糊性信息则不会传播出去。需要注意的是,跨模态邻接矩阵的融合和防止模糊信息的传播对于我们的模型至关重要。

我们按照 [59] 的方法,使用相似性阈值 θ \theta θ和一个 top-K 排序列表来过滤掉贡献较低的节点。通过列进行的 softmax 运算用于获得最终的邻接矩阵。

4.3. Graph Inference

对于动作图和背景图,我们直接进行图均值和图卷积操作,然后通过残差连接获取聚合特征。以动作图为例,动作特征 (F_a) 应用图均值操作如下:
在这里插入图片描述
对于具有 L L L 层的图卷积网络(GCN),第 l 层的公式如下所示:
在这里插入图片描述
其中, F l g c n F_l^{gcn} Flgcn 是第 l l l 层的输出, F 0 g c n = F a F_0^{gcn}=F_a F0gcn=Fa σ \sigma σ 是带参数 0.2 的 LeakyReLU 激活函数。通过图网络汇聚的特征 F a g F_a^g Fag F a a v g F_a^{avg} Faavg F a g c n F_a^{gcn} Fagcn(即 F L g c n F_L^{gcn} FLgcn)的均值,增强的特征如下所示:
在这里插入图片描述
对于模糊图,我们像上面一样应用图平均。由于难以训练,我们从不为模糊特征应用单独的 GCN。相反,我们利用 F a g c n F_a^{gcn} Fagcn F b g c n F_b^{gcn} Fbgcn 来聚合相同形式的表示。我们将 A m A_m Am 的分区,其中只包含模糊列和动作行,表示为 A m , a A_{m,a} Am,a A m , b A_{m,b} Am,b A m , m A_{m,m} Am,m 也是相同的。具体地说,
在这里插入图片描述
需要注意的是, A m , m A_{m,m} Am,m 是一个对角矩阵。后续过程与方程9保持一致。在这种情况下,GCN 只学习转换具有区分性的片段特征。模糊片段的表示通过图推断从增强的特征中受益。

通过图推断,我们获得了增强的片段级特征。我们将更新后的特征按时间排序并将其输入基础模型,以执行 WTAL 任务,而不是使用原始特征。我们发现直接使用 GCN 是有害的,因为它会导致模型追求分类性能,从而导致具有混乱特征的较差的定位结果。因此,我们提出了特征一致性损失来有效解决这个问题。

4.4. Feature Consistency Loss

在我们的实验中,如果没有对 GCN 进行任何约束,DDG-Net 的性能会急剧下降。GCN 倾向于将所有片段级特征转换为接近动作特征,这对定位任务是有害的。因此,我们提出了特征一致性损失来避免这种情况。直观地说,我们希望通过 DDG-Net 保持最具辨识性的表示不变,因为它们可以很容易地被识别。然而,在图的交互影响下,实现这一目标是困难的。相反,我们惩罚图平均特征和图卷积特征之间的距离来实现相同的功能。形式上,
在这里插入图片描述
在这个约束下,GCN 学习增强较不具有辨识性的特征,同时保持最具辨识性表示的特征。

4.5. Train Objective

完整的训练目标函数为
在这里插入图片描述
L c l L_{cl} Lcl 是补充学习损失。

5. Experiments

在这里插入图片描述
在这里插入图片描述

6. Conclusions

在本文中,我们提出了DDG-Net,探索一种新颖的图网络,以有效增强用于WTAL的片段级表示的可辨识性。具体来说,我们使用一种简单但有效的方法划分片段,并为具有辨别性和模糊性的片段设计了不同类型的连接。通过这种方式,我们通过图推理显着提高了片段级表示的可辨识性,特别是对于模糊片段。我们的方法显著提高了基准模型的性能,并取得了最先进的结果。大量实验证实了我们方法的优越性。

  • 22
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值