【弱监督时间动作定位】Relational Prototypical Network for Weakly Supervised Temporal Action Localization 论文阅读

Relational Prototypical Network for Weakly Supervised Temporal Action Localization 论文阅读

文章信息:
在这里插入图片描述

发表于:AAAI2020
原文链接:https://ojs.aaai.org/index.php/AAAI/article/view/6760
源码:无

Abstract

在本文中,我们提出了一种基于原型网络的弱监督未剪辑视频的时间动作定位方法。我们注意到弱监督带来了两个挑战,即动作-背景分离和动作关系构建。与以往的方法不同,我们提出仅通过原始视频实现动作-背景分离。为此,采用了一种聚类损失来将动作与背景分离并学习类内紧凑的特征,这有助于检测完整的动作实例。此外,还设计了一个相似性加权模块,以进一步将动作与背景分离。为了有效识别动作,我们提出构建动作间的关系以进行原型学习。引入了基于GCN的原型嵌入模块来生成关系原型。在THUMOS14和ActivityNet1.2数据集上的实验表明,我们的方法优于最新的状态-of-the-art方法。

Introduction

在这里插入图片描述

图1:(a)原型网络的示意图。它将每个类别表示为一个原型,距离被用作特征与原型之间相似性的度量。(b)我们使用聚类损失将动作的特征推向相应的原型。尽管难以区分的背景(与动作相似)也会被推向原型,但由于背景与原型的相似性较低,其距离原型的程度不会像动作那样接近。

视频中的时间动作定位已应用于多个领域(Sun et al. 2015; Sultani, Chen, and Shah 2018)。这一任务旨在在时间维度上从未剪辑视频中定位动作实例。大多数现有方法在训练时需要提供帧级注释。然而,这种对帧级注释的要求并不适合实际应用,因为对大规模视频进行密集注释既昂贵又耗时。此外,即使对于人类来说,准确的帧级注释也是一项挑战,这进一步增加了注释的难度。

为了解决这些困难,开发了仅使用视频级标签的弱监督方法(Wang et al. 2017a; Nguyen et al. 2018; Paul, Roy, and Roy-Chowdhury 2018),这些标签更容易人工注释。由于缺乏帧级注释,弱监督方法可能面临两个挑战。第一个挑战是如何将动作与背景区分开,即动作背景分离。为缓解这一问题,许多现有方法利用辅助信息,如时间注意力权重(Nguyen et al. 2018; Yuan et al. 2019),并希望时间注意力权重能够集中在动作的前景。

然而,由于弱监督方法通常建立在分类器之上,分类和检测之间存在矛盾,即分类器总是关注具有辨别力的片段,而检测器应发现完整的动作实例而不遗漏(Zhong et al. 2018)。为了解决这个问题,一些方法强制模型关注视频的不同部分。然而,由于复杂背景的存在,对于分类器和注意力模块来说,都很难准确地区分动作和背景,从而导致性能下降。最近,Liu等人(Liu, Jiang, and Wang 2019)提出使用伪视频进一步解决这个问题。他们通过对光流强度进行阈值处理生成伪视频,并将其标记为背景类。然而,这个过程耗时,并且可能会将一些动作的帧过度分割到伪视频中。

实际上,我们认为没有必要强迫模型关注视频的不同部分。如果我们能使同一动作的片段级特征尽可能相似,同时将动作与背景分离,那么同一动作的片段自然会具有相似的分类得分,从而检测出完整的动作实例。这促使我们找到一种方法,仅通过原始视频学习内部紧凑的表示并将动作与背景分离。

即使我们能很好地实现这一点,我们还必须考虑另一个问题,即动作-动作分离。大多数现有方法只是使用简单的分类器来处理它。然而,不同于处理单一动作剪辑视频的动作识别方法(Simonyan 和 Zisserman 2014;Carreira 和 Zisserman 2017),时间动作定位是针对可能包含多种动作的视频。因此,如何明确捕捉动作的共现并准确区分它们是另一个挑战。考虑到视觉关系已被广泛应用于各种任务(Wang et al. 2017b;Yang et al. 2018),一种解决方案是考虑不同动作之间的关系。

通过引入原型网络(Snell、Swersky 和 Zemel 2017),这是实现我们目标的一种好方法。如图1(a)所示,该模型是为分类设计的,可用于动作-背景分离和动作-动作分离。此外,它将每个动作类别表示为一个原型,使得可以全局捕捉动作之间的关系。然而,原始的原型网络仅关注类别之间的分离性而不考虑关系,因此它仍然面临这两个挑战。

因此,我们提出了一种新型的关系原型网络。为了构建动作之间的关系以实现动作-动作分离,我们首先设计了一个基于共现矩阵的共现GCN,该共现矩阵是以数据驱动方式生成的。基于共现GCN,设计了一个原型嵌入模块用于生成关系原型。与将原型视为独立个体不同,学习到的原型是相互依赖的,因此可以有效地帮助我们的方法识别动作。遵循原型网络,特征与原型之间的距离被用作相似性的度量。然后将片段级别的相似性通过时间上的注意力池化为视频级别的类别相似性。

为了分离动作与背景并学习内部紧凑特征,采用了如图1(b)所示的聚类损失。聚类损失可以将动作特征推向它们相应的原型,从而生成聚集的特征,这有助于检测完整的动作实例。同时,由于不相似性,动作特征将与背景特征分离。此外,我们开发了一个后处理模块,即相似性加权模块,以进一步过滤背景。还设计了一种原型更新策略,以使学习到的原型更接近视频的真实聚类中心,确保相似性的权重有意义。

我们的方法在两个基准数据集THUMOS14(Idrees等,2017)和ActivityNet1.2(Caba Heilbron等,2015)上优于现有的最新方法,证明了我们方法的有效性。总的来说,我们的贡献有三点:

1)利用具有聚类损失的原型网络来分离动作与背景。

2)提出了一种基于共现GCN的原型嵌入模块,以显式捕捉动作之间的关系。

3)我们的方法在两个重要的动作定位基准上获得了最新的结果。

Related Work

Fully supervised temporal action localization.许多近期的完全监督方法(Yuan et al. 2016; Chao et al. 2018)采用了包括提案生成和分类的两阶段流程。即,它们首先从视频中生成类无关的提案,然后对每个提案进行单独分类。对于这些方法,提高提案质量(Lin et al. 2018)和学习更鲁棒、准确的分类器(Shou et al. 2017; Zhao et al. 2017)是很自然的。此外,一些其他方法(Lea et al. 2017; Yuan et al. 2017)则专注于生成片段级的动作标签,然后利用这些标签预测时间上的动作边界。但所有这些方法都需要帧级的标注来进行提案生成和分类器训练。

Weakly supervised temporal action localization.为了减轻对帧级标注的需求,Wang et al.(Wang et al. 2017a)首次提出仅使用视频级类别标签进行时间上的动作定位。

为了解决动作与背景分离的问题,一些方法利用注意机制(Nguyen et al. 2018)或边际平均聚合(Yuan et al. 2019)来关注动作的区分性片段,并将显著的片段级特征融合成视频级特征,输入后续分类器。然而,分类与检测之间的矛盾使得这些方法无法捕捉完整的动作实例。为了解决这个问题,一些方法通过使用掩膜(Singh and Lee 2017)、逐步擦除(Zhong et al. 2018)和多样性损失(Liu, Jiang, and Wang 2019)来强制模型关注视频的不同部分。最近,Liu et al.(Liu, Jiang, and Wang 2019)提出利用伪视频,这些伪视频使用静态片段生成并标记为新的背景类别。然而,生成伪视频的过程耗时且可能会将某些动作帧过度分割到伪视频中。

对于第二个挑战——动作与动作的分离,大多数现有方法仅使用简单的分类器来解决。与此最相关的工作是 W-TALC(Paul, Roy, and Roy-Chowdhury 2018),该方法使用共同活动相似性损失来强制相同类别实例之间的特征相似性。然而,它只考虑了相同行动的视频之间的相关性,忽略了动作之间的关系。此外,共同活动相似性损失仅施加了成对约束,这可能不足以学习更好的表示。

Proposed Method

在这里插入图片描述

图2:我们方法的概览。在训练过程中,片段被输入特征提取模块,然后通过特征嵌入模块生成嵌入特征。同时,原型嵌入模块将标签特征作为输入并输出关系原型。特征和原型之间的距离用作相似性的度量。片段级的相似性通过时间注意力聚合为视频级的类别相似性。我们对其施加两个损失,即动作损失和聚类损失,以学习分离和聚类的表示。在测试过程中,我们使用相似性加权模块进一步滤除背景。

在本节中,我们详细阐述了所提出的方法,如图2所示。在详细介绍我们的方法之前,让我们正式定义符号和问题陈述。

Problem definition. 问题定义。设 V = { v t } t = 1 L V = \{ v_t \}_{t=1}^L V={vt}t=1L为一个具有可变时间长度的视频,其中 L L L表示时间长度。假设我们有一个训练视频集合 { V i } i = 1 N \{ V_i \}_{i=1}^N {Vi}i=1N,它们的活动标签为 { y i } i = 1 N \{ \boldsymbol{y}_i \}_{i=1}^N {yi}i=1N,其中 y ∈ Y = { 0 , 1 } C \boldsymbol{y} \in \mathcal{Y} = \{0,1\}^C yY={0,1}C是一个 C C C维的二进制向量,表示动作的存在与否。在测试时,我们希望预测一组动作实例 { c j , s j , e j , q j } \{ c_j, s_j, e_j, q_j \} {cj,sj,ej,qj},其中 c j c_j cj 表示预测的动作类别, s j s_j sj e j e_j ej 分别表示实例的开始时间和结束时间, q j q_j qj 显示实例的置信度得分。

Relational Prototypical Network.我们提出的关系原型网络(RPN)主要由六个部分组成,即特征提取模块、特征嵌入模块、原型嵌入模块、原型匹配模块、时间注意模块和相似性加权模块,具体如下:

Feature extraction module.参考之前的方法 (Nguyen et al. 2018; Liu, Jiang, and Wang 2019),我们主要关注两个最先进的框架,即 UntrimmedNet (Wang et al. 2017a) 和 I3D (Carreira and Zisserman 2017),用于提取输入视频的高层次运动和外观特征。给定输入视频 V V V,预训练的特征提取模块提取了两个片段级别的特征 X r ∈ R T × D X^r \in \mathbb{R}^{T \times D} XrRT×D X o ∈ R T × D {{\boldsymbol{X}}}^o \in \mathbb{R}^{T \times D} XoRT×D,其中 T T T 表示片段的数量, D D D 表示特征的维度。 X r X^r Xr X o X^o Xo 分别表示 RGB 和光流特征。为了简化,我们在本文的其余部分中用 X X X 来表示这两个特征。需要注意的是,在训练过程中,我们不对特征提取模块进行微调。

Feature embedding module.由于我们的目标是将一个动作与其他动作类别和复杂背景分开,因此需要使用一个任务特定的模块,即特征嵌入模块,来学习一组新的特征。我们采用了一个多层时间卷积网络,该网络交替使用激活函数和 dropout 操作。该网络可以用来处理视频特征 X X X,其形式化表示如下:
在这里插入图片描述
其中, F ( ⋅ , ⋅ ) \mathcal{F}(\cdot,\cdot) F(,) 表示嵌入网络, W e m b \boldsymbol W_{emb} Wemb 是对应的参数, X e ∈ R T × E \boldsymbol{X}_e \in \mathbb{R}^{T \times E} XeRT×E 是学习到的嵌入特征, E E E 是嵌入特征的维度。

Prototype embedding module.原型在我们的框架中非常重要。它们可以从整个数据集中学习,从而使我们能够全局捕捉动作类别之间的关系,而不是像 W-TALC (Paul, Roy, and Roy-Chowdhury 2018) 中那样以成对的方式进行。仅考虑动作-动作分离时,原型应该尽可能远离。然而,考虑到动作之间的关系时,希望相关原型之间的距离比不相关原型之间的距离要小,这样当一个动作发生时,相关动作也更可能发生。换句话说,两个相关类别的共现可以通过它们在嵌入空间中的原型距离来衡量。这激励我们寻找一种方法来捕捉动作之间的关系。

在本文中,我们提出了一种共现图卷积网络来实现这一目标。我们的动机主要有两个方面。首先,图被证明在表示关系方面是有效的。图卷积网络通过在连接的顶点之间传播信息,使得连接组件中的动作彼此依赖。其次,图卷积操作实际上是拉普拉斯平滑的过程(Li, Han, and Wu 2018),我们可以利用其特性将语义相关的原型推得更近。现在的问题是如何构建图卷积的邻接矩阵 A A A,因为没有给定真实的标签。实际上,矩阵 A A A的元素 a i j a_{ij} aij可以视为第 i i i个动作与第 j j j 个动作之间的关系。因此,我们在本文中将邻接矩阵 A A A 称为共现矩阵。

根据先前的方法(Xue et al. 2011;Chen et al. 2019),共现矩阵 A ∈ R C × C A \in \mathbb{R}^{C \times C} ARC×C 可以通过以下方式获得:

在这里插入图片描述
其中,元素 a i j a_{ij} aij 是分配给边 ( i , j ) (i, j) (i,j) 的权重。 N i ∩ j N_{i\cap j} Nij 表示动作 i i i j j j 的共同出现次数,而 N i {N}_i Ni 表示动作 i i i 的出现次数。

我们在共现矩阵中添加自连接,即 A ^ = A + I C \hat{A} = A + \boldsymbol{I}_C A^=A+IC。为了表示动作之间的差异,我们对邻接连接和自连接使用不同的权重,如下所示:

在这里插入图片描述
其中 D ^ ∈ R C × C \hat{\boldsymbol{D}} \in \mathbb{R}^{C \times C} D^RC×C 是度矩阵,定义为 d ^ i i = ∑ j a ^ i j \hat{d}_{ii} = \sum_j \hat{a}_{ij} d^ii=ja^ij { W 1 , W 2 } \{\boldsymbol{W}_1, \boldsymbol{W}_2\} {W1,W2} 是可训练参数, σ ( ⋅ ) \sigma(\cdot) σ() 是激活函数。基于共现矩阵,我们采用共现图卷积网络(GCN)将特征从标签空间 ( ∈ R F ) (\in \mathbb{R}^F) (RF) 投影到特征空间 ( ∈ R E ) (\in \mathbb{R}^E) (RE),具体如下:

在这里插入图片描述
其中 W g \boldsymbol{W}_g Wg 是可训练参数, L = { l i } i = 1 C \boldsymbol{L} = \{ \boldsymbol{l}_i \}_{i=1}^C L={li}i=1C 是输入特征, P = { p i } i = 1 C \boldsymbol{P} = \{ \boldsymbol{p}_i \}_{i=1}^C P={pi}i=1C 是学习到的原型, C C C 是类别数量。

Prototype matching module.根据原型网络(Snell, Swersky, and Zemel 2017),使用距离来衡量特征与原型之间的相似性,因此分类过程转化为原型匹配。每个片段的类别相似性为:

在这里插入图片描述
其中, x e t x_e^t xet 表示第 t t t 个片段的嵌入特征, p j p_j pj 表示与第 j j j 个动作对应的原型, ∥ ⋅ ∥ 2 \|\cdot\|_2 2 是向量的 L 2 L_2 L2 范数。然后 s t s_t st 被沿类别维度传递到 softmax,得到每个时间位置的概率分布。

在这里插入图片描述

其中, γ c \gamma_c γc 是一个控制概率分配难度的超参数。与其他方法(Nguyen et al. 2018; Paul, Roy, and Roy-Chowdhury 2018; Yuan et al. 2019)类似, s ~ t \widetilde{s}_t s t 可以被视为用于定位动作实例的类激活序列(CAS)。

Temporal attention module.注意力模块对于解决弱监督任务至关重要。注意力模块 Φ ( ⋅ , ⋅ ) Φ(·, ·) Φ(⋅,⋅) 为每个嵌入特征 x e t x_e^t xet生成类无关的注意力权重 λ t \lambda_t λt,其表达式为:

在这里插入图片描述
其中, W a t t W_{att} Watt 是可训练参数。根据注意力权重,所有片段级的未归一化得分 s t s_t st 通过全局加权平均池化融合为视频级得分 s ˉ \bar{s} sˉ。然后我们在其上沿类别维度执行 softmax:

在这里插入图片描述

其中, p ∈ R C \boldsymbol{p} \in \mathbb{R}^C pRC 是整个视频的类别分布。分类损失是预测的 p p p 与真实值之间的交叉熵,可以表示为:

在这里插入图片描述
其中, y i ^ \hat{y_i} yi^ 是归一化后的真实值向量 y ^ = y / ∑ c y c \hat{\boldsymbol{y}} = \boldsymbol{y} / \sum_c y_c y^=y/cyc 的元素。

原型匹配模块可以被视为一个分类器,其中用于分类的超平面是由原型生成的。然而,它只关注类间的分离度,一些困难的背景片段(如上下文片段)(Liu, Jiang, 和 Wang 2019)也可能具有很高的分类得分。此外,时间注意力权重可能只关注具有辨别力的片段,这使得分类器无法准确分类动作的全部特征,从而降低了检测性能。鉴于此,我们采用了聚类损失:

在这里插入图片描述

其中, δ ( ⋅ ) \delta(\cdot) δ() 表示条件表达式,当条件为真时等于1,否则为0。为了避免破坏类间分离度,它仅在发生一个类别的动作时起作用。聚类损失将动作的特征推向其对应的原型,这会导致类内紧凑的特征。虽然困难的背景(如上下文)也会被推向原型,但由于不相似性,它们不会像动作那样靠近原型。因此,动作的特征会与背景的特征分离开来。最后,我们将分类损失与聚类损失结合起来,如下所示:

在这里插入图片描述
其中, α \alpha α 是控制紧凑程度的系数。

Similarity weighting module.基于学习良好的表示,这些表示已经被聚类和分离,可以采用一种有效的方法来加权相似性 s t j ~ \widetilde{s_{tj}} stj (参见公式6),以进一步滤除背景。给定原型 p j p_j pj 的未归一化相似性 s t j s_{tj} stj(参见公式5)和嵌入特征 x e t x_e^t xet,我们沿着时间维度将其输入到 softmax 中:

在这里插入图片描述

最终的定位得分为 φ t j = s t j ^ s t j ~ \varphi_{tj} = \widehat{s_{tj}} \widetilde{s_{tj}} φtj=stj stj

尽管如此,原型是基于整个数据集学习的,可能不适用于特定的视频。特别是,当多个动作出现在一个片段中时,原型与特征的聚类中心不一致,这种操作可能会降低性能。为了解决这个问题,我们提出了一种原型更新策略,使原型更接近视频的聚类中心,如算法1所示。原型更新策略基于一个前提,即原型接近聚类中心。因此,我们使用原型的邻近特征来更新它自身。更新后,原型更接近聚类中心,产生有意义的加权得分。最终得分可以变为 φ t j = s t j ^ s t j ~ \varphi_{tj} = \widehat{s_{tj}} \widetilde{s_{tj}} φtj=stj stj 。请注意,上述操作应基于良好学习的表示,因此我们仅在测试期间采用它。我们将在实验中对此进行分析。
在这里插入图片描述

Experiments

在这里插入图片描述

在这里插入图片描述

Conclusion

在本文中,我们提出了一种用于弱监督时间动作定位的关系原型网络。我们首先识别了弱监督带来的两个挑战,即动作与背景的分离以及动作关系的构建。为了解决第一个挑战,采用了聚类损失来将动作与背景分离,并学习动作的类内紧凑表示。同时,引入了相似性加权模块以进一步滤除背景。为了解决第二个挑战,提出了一种基于共现GCN的原型嵌入模块,以生成关系原型。我们在两个基准数据集上评估了我们提出的方法,并取得了最先进的性能。

阅读总结

这个Label Features是啥,是one-hot编码吗?

在这里插入图片描述

这个共现矩阵A, a i j a_{ij} aij的值按论文的意思就是动作i和j共同出现的次数除以动作i出现的总数,那在同一个视频里出现了不同的动作,这个能代表什么?代表两个动作有关系?那要是没什么关系的话,这个真能起到效果吗?

在这里插入图片描述

  • 17
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值