【弱监督时间动作定位】HR-Pro: Point-supervised Temporal Action Localization via Hierarchical ... 论文阅读

HR-Pro: Point-supervised Temporal Action Localization via Hierarchical Reliability Propagation论文阅读


文章信息:

在这里插入图片描述
发表于:AAAI2024
原文链接:https://arxiv.org/abs/2308.12608
源码:https://github.com/pipixin321/HR-Pro

Abstract

点监督时序动作定位(PSTAL)是标签有效学习领域的一个新兴研究方向。然而,当前的方法主要集中在优化网络在片段级别或实例级别上的表现,却忽视了在这两个级别上点标注所固有的可靠性。在本文中,我们提出了一个层次化可靠性传播(HR-Pro)框架,该框架包含两个注重可靠性的阶段:片段级区分学习和实例级完整性学习,这两个阶段都探索了点标注中高置信度线索的有效传播。在片段级学习阶段,我们引入了一个在线更新的内存模块,用于存储每个类别的可靠片段原型。随后,我们采用了一个可靠性感知注意力块(Reliability-aware Attention Block),以捕捉片段之间的视频内和视频间依赖性,从而生成更具区分性和鲁棒性的片段表示。在实例级学习阶段,我们提出了一种基于点的候选框生成方法,作为连接片段和实例的桥梁,该方法能够产生高置信度的候选框,以便在实例级别进行进一步的优化。通过多级可靠性感知学习,我们获得了更可靠的置信度分数和更准确的预测候选框的时间边界。我们的HR-Pro在多个具有挑战性的基准测试中达到了最先进的性能,包括在THUMOS14数据集上实现了令人印象深刻的平均mAP(平均精度均值)60.3%。值得注意的是,我们的HR-Pro不仅大幅超越了所有之前的点监督方法,甚至在某些方面还优于一些竞争性的全监督方法。代码将在https://github.com/pipixin321/HR-Pro上公开。

Introduction

在这里插入图片描述
图1:动机说明。给定点级标注(紫色部分),我们考虑了片段级别和实例提议级别上的动作可靠性先验,以实现可靠性感知的动作表示学习。具体来说,我们的见解是通过传播可靠的原型来产生更具判别性的片段级分数以及更可靠和完整的实例级分数。较深的颜色(更绿或更橙)表示更高的可靠性。为了简洁起见,这里仅展示了一个动作类别的案例。

时序动作定位是视频理解领域的一项基础任务,旨在在未剪辑的视频中时间上定位并分类动作实例,并因其在各个领域中的潜在应用而备受关注(Lee, Ghosh, 和 Grauman 2012; Vishwakarma 和 Agrawal 2013)。然而,传统的全监督方法(Lin 等人 2018, 2019; Xu 等人 2020; Qing 等人 2021; Wang 等人 2022b,a; Nag 等人 2022)需要精确的时间标注,这些标注极为耗时且劳动密集,阻碍了实际应用。因此,许多研究人员(Wang 等人 2017; Shou 等人 2018; Wang 等人 2021b)开始关注弱监督时序动作定位(WSTAL),在这种方法中,仅有视频级别的标签是可用的。尽管WSTAL领域取得了显著进展,但由于缺乏动作边界信息,模型在区分动作和背景方面面临巨大挑战,导致与全监督方法相比,性能不尽如人意。

在弱监督时序动作定位(WSTAL)的背景下,为了平衡标注成本和检测性能,Ma等人(Ma et al. 2020)引入了点监督时序动作定位(PSTAL)任务,该任务仅为每个动作实例提供一个时间戳标签。他们的开创性研究表明,点级别的标注几乎与视频级别的标注消耗相当的劳动力成本,但提供了更丰富的指导信息。随后,许多研究开始遵循这一设置,并提出了各种定制化的解决方案。典型地,LACP(Lee 和 Byun 2021)通过贪婪算法搜索最优伪序列来学习动作实例的完整性。Ju等人(Ju et al. 2021)则提出了一个种子帧检测器来生成候选框,并对这些候选框进行回归和分类操作。

基于这些见解,我们提出了一种分层可靠性传播方法,该方法包括两个注重可靠性的阶段:片段级动作判别学习和实例级动作完整性学习。这两个阶段如图1所示。(1)在片段级动作判别学习阶段,我们的目标是获得具有判别性的片段级分数,以生成更可靠的候选框。为此,我们引入了一个在线更新的内存来存储每个类别的可靠原型。此外,我们还提出了一个可靠性感知注意力块,以将这些可靠原型中的高置信度线索传播到其他片段。通过对内存和片段特征的对比优化,我们推导出了更具判别性的动作表示。(2)在实例级动作完整性学习阶段,我们通过实例级特征学习来细化候选框的置信度和边界。我们提出了一种基于点的候选框生成方法,该方法生成可靠的实例级原型候选框,以及高置信度的正候选框和负候选框。然后,将这些候选框的特征输入到评分头和回归头中,以预测完整性分数和细化边界。这一预测过程由可靠的实例原型指导。因此,网络能够估计出更可靠的实例级分数,并实现更准确的时间边界。

综上所述,我们的贡献如下:

  • 我们提出的方法,即HR-Pro,是首个在PSTAL领域中同时利用点标注在片段级和实例级优化中的固有可靠性的方法。
  • 在片段级,我们提出了一个可靠性感知注意力模块和基于可靠内存的对比损失,以获得具有判别性的片段级表示。
  • 在实例级,我们提出了基于可靠性的候选框生成和排序方法,以生成高置信度的候选框,以便在实例级进行进一步的优化。
  • 我们的HR-Pro在四个标准的时间动作定位基准上实现了最先进的性能,包括在THUMOS14上达到了令人印象深刻的平均mAP 60.3%,这甚至超过了几个有竞争力的全监督方法。

Related Work

Fully-supervised temporal action localization.主流的全监督方法可以分为两类,即单阶段方法和两阶段方法。单阶段方法(如Xu等人 2020;Zhang, Wu, 和 Li 2022)同时预测动作的边界和类别作为最终的检测结果。两阶段方法(如Lin等人 2018, 2019;Qing等人 2021;Wang等人 2022b, 2021a)首先生成大量的候选框,然后对候选框进行分类。尽管近年来这些方法取得了显著的进展,但这些全监督方法需要昂贵的标注成本,这限制了它们的应用。

Weakly-supervised temporal action localization.为了降低标注成本,已经提出了许多弱监督时间动作定位(WSTAL)方法(如Wang等人 2017;Shou等人 2018;Liu等人 2019),在这些方法中,仅提供视频级别的标签。最近的WSTAL方法大多遵循通过分类进行定位的模式。它们首先使用片段分类器来评估每个视频片段的类别概率,即类别激活序列(CAS),然后使用多个预定义的阈值来定位时间边界。最近,已经进行了许多尝试来提高模型的性能。BaS-Net(Lee, Uh, 和 Byun 2020)引入了背景类别和背景分支来抑制背景片段的类别激活值。ACM-Net(Qu等人 2021)提出了三个注意力分支来分离前景、背景和上下文。CoLA(Zhang等人 2021)提出了一种难片段挖掘算法和片段对比损失来优化特征空间中难片段的表示。ACG-Net(Yang, Qin, 和 Huang 2022)和DGCNN(Shi等人 2022)采用图网络来增强特征嵌入并建模动作片段之间的关系。ASM-Loc(He等人 2022)提出使用片段内和片段间注意力来建模动作动态并捕获时间依赖性。由于缺少逐帧的标注,这些模型的性能大大落后于全监督方法。

Point-supervised temporal action localization.为了平衡标注成本和模型性能,Ma等人(2020)提出了点监督时间动作定位(PSTAL)任务,该任务为每个动作实例提供了一个时间戳标签。为了探索点标注提供的指导信息,SF-Net(Ma等人 2020)使用单帧标签来挖掘其相邻的伪标签以训练分类器。Ju等人(Ju et al. 2021)采用了两阶段方法,首先提出一个种子帧检测器来生成候选框,然后对候选框进行回归和分类。LACP(Lee和Byun 2021)通过贪心算法搜索最优伪序列,用来指导网络学习动作实例的完整性。然而,这些方法在优化网络时要么仅在片段级进行,要么仅在实例级进行,导致片段级的判别性表示不够有效,实例级的分数不够可靠。

Preliminaries

Problem Definition.对于点监督的时间动作定位(PSTAL),模型使用每个未剪辑视频的单帧注释进行训练。每个动作实例用一个时间点 p i p_i pi和一个独热向量 y p i y_{p_i} ypi注释,该向量指示动作类别 c c c,其中 y p i [ c ] = 1 y_{p_i}[c]=1 ypi[c]=1。视频总共包含 N N N个动作实例。在推理期间,我们为每个测试视频生成预测结果 ( s m , e m , c m , p m ) m M (s_m,e_m,c_m,p_m)_m^M (sm,em,cm,pm)mM,其中 s m s_m sm e m e_m em是第 m m m个预测动作实例的开始和结束时间, c m c_m cm是预测的类别, p m p_m pm是置信度得分。 M M M是预测的动作实例总数。

Baseline Architecture.输入视频首先被划分为多个多帧片段,然后我们使用预训练的视频分类模型提取每个片段的RCB和光流特征,并沿通道维度将它们连接起来。输入视频的特征表示为 X ∈ R T × D \mathbf{X}\in\mathbb{R}^{T\times D} XRT×D,其中 T T T D D D分别表示片段的数量和特征的维度。然后将这些特征输入到特征嵌入层中,得到任务特定的嵌入特征 X e ∈ R T × D \mathbf{X}^e\in\mathbb{R}^{T\times D} XeRT×D

按照之前的工作 (Lee 和 Byun 2021),我们首先将嵌入特征输入到片段级分类器中,以获得类别特定的激活序列 S ∈ R T × C \mathbf{S}\in\mathbb{R}^{T\times C} SRT×C,其中 C C C 表示类别数量。为了减少背景片段带来的噪声,我们使用卷积层生成一个与类别无关的注意力序列 A ∈ R T \mathbf{A}\in\mathbb{R}^T ART。然后,我们通过逐元素相乘将它们融合,得到最终的片段级预测 P ∈ R T × C \mathbf{P}\in\mathbb{R}^{T\times C} PRT×C,其中 P = S ⋅ A ∘ \mathbf{P}=\mathbf{S}\cdot\mathbf{A}_{\circ} P=SA

Baseline Optimization Loss.基于每个动作实例包含一个点注释以及相邻点注释位于不同动作实例的特性,我们根据点注释和类别无关的注意力序列选择伪动作片段 T + = { t i } i = 1 N a c t \mathcal{T}^+=\{t_i\}_{i=1}^{N_{act}} T+={ti}i=1Nact 和伪背景片段 T ^ − = { t j } j = 1 N b k g \hat{\mathcal{T}}^-=\{t_j\}_{j=1}^{{N}_{bkg}} T^={tj}j=1Nbkg具体来说,靠近点注释并且类别无关注意力高于给定阈值的片段被标记为伪动作片段,其动作类别与点注释相同。相反,位于两个相邻点注释之间且类别无关注意力最低或低于给定阈值的片段被标记为伪背景片段。我们使用这些伪片段样本进行监督,
在这里插入图片描述

其中 N a c t N_{act} Nact N b k g {N}_{bkg} Nbkg 分别表示伪动作片段和背景片段的总数, F L FL FL 表示焦点损失函数(Lin et al. 2017)。

Method: Hierarchical Reliability Propagation

可靠性可以帮助网络挖掘更多的伪样本,从而缓解点监督设置中指导信息稀疏的问题。我们认为,点注释的固有可靠性可以在片段特征提取器可靠性评分和实例级优化中传播。因此,我们提出了一个分层可靠性传播框架,将动作定位学习分为两个级联阶段:(1)片段级动作判别学习和(2)实例级动作完整性学习。

Snippet-level Action Discrimination Learning.
之前的研究主要集中在估计时间伪标签以扩展训练样本,这限制了在单个视频内高置信度片段信息的传播。因此,我们引入了基于可靠性的片段级动作判别学习,提出为每个类别存储可靠的原型,并通过视频内和视频间的方式将这些原型的高置信度线索传播到其他片段。
Reliable Prototype Construction.由于片段级动作表示,即片段特征,仅捕捉短期和部分动作状态,特征可能存在噪声且不可靠。因此,我们的见解是通过去噪机制构建可靠的片段原型,以进行进一步的可靠性引导优化。

具体而言,我们创建一个在线更新的原型存储器,在表示学习过程中为每个类别存储可靠的原型,使我们能够利用整个数据集的特征信息来减少每个特征的噪声。形式上,我们用 m c ∈ R D \mathbf{m}_c \in \mathbb{R}^D mcRD表示存储器中的每个项(其中 c = 1 , 2 , . . . , C c = 1, 2, ..., C c=1,2,...,C表示类别)。在点监督时间动作定位(PSTAL)设置下,我们通过选择每个类别的点注释特征来初始化原型池。这通过计算与类别 c c c的点注释 p i p_i pi 对应的片段特征 x p i \mathbf{x}_{p_i} xpi的平均值来完成。我们将总和归一化为所有训练视频中类别 c c c的点注释总数 N c N_c Nc。初始的原型存储器定义如下:
在这里插入图片描述
接下来,我们使用伪动作片段的特征更新每个类的原型,其公式为:
在这里插入图片描述
这里,µ表示更新的动量系数。

如图3所示,为了得出原型,我们将特征提取器提取的片段级特征输入到一个基于可靠性的注意力块(RAB)中。RAB专门设计用于捕捉片段的视频内和视频间依赖关系,从而能够建模互补的时间关系。长时间依赖建模对于长视频至关重要,这一点得到了之前研究的支持(Zhang, Wu, and Li 2022; Wang et al. 2022c; Xu et al. 2022; Wang et al. 2023)。然而,注意力往往变得稀疏,并主要集中在同一视频内的判别片段上,导致信息交互有限。因此,RAB结合了从可靠原型(即片段)存储器传播全局类别信息的见解,从而增强了片段特征的鲁棒性,并增加了对非判别片段的注意力。

技术上,我们采用一个线性层 f q f_q fq将视频特征投影到相应的查询上。随后,我们将视频特征 X \mathbf{X} X与存储在可靠存储库中的原型特征 m i \mathbf{m}_i mi进行连接(“[; ]”表示连接)。然后,我们使用独立的线性层 f k f_k fk f v f_v fv将连接后的特征分别投影到键和值上:
在这里插入图片描述

接下来,我们将查询与转置后的键相乘,以获得非局部注意力 attn ∈ R T × ( T + C ) \text{attn} \in \mathbb{R}^{T \times (T+C)} attnRT×(T+C)

在这里插入图片描述

Reliability-aware Optimization为了将伪动作片段的特征与可靠原型池中不同类别的原型分离开来,并将同一视频中伪动作片段和背景片段的特征分离开来,我们采用对比学习的方法,并提出一种基于可靠性的片段对比损失 ( L c o n t r a (L_{contra} (Lcontra):
在这里插入图片描述
其中 t i c t_i^c tic 表示类别 c c c的伪动作片段; s ( ⋅ , ⋅ ) s(\cdot, \cdot) s(,)是相似性函数,定义为 s ( x 1 , x 2 ) = exp ⁡ ( x ˉ 1 ⋅ x ˉ 2 / τ ) s(\mathbf{x}_1, \mathbf{x}_2) = \exp(\bar{\mathbf{x}}_1 \cdot \bar{\mathbf{x}}_2 / \tau) s(x1,x2)=exp(xˉ1xˉ2/τ),其中 τ \tau τ是温度参数, x ˉ \bar{\mathbf{x}} xˉ表示 x \mathbf{x} x的归一化特征。

最后,片段级动作判别学习的总体训练目标包括基线损失 L b a s e L_{base} Lbase 和我们的基于可靠性的片段优化损失 L c o n t r a L_{contra} Lcontra,它们由参数 λ 1 \lambda_1 λ1加权:

在这里插入图片描述

Instance-level Action Completeness Learning
片段级表示学习赋予我们的模型强大的片段级动作判别能力。然而,尽管片段表示具有判别力,基于片段的管道可能会产生许多不理想的检测结果,因为在没有考虑整个实例的情况下,提案得分是不可靠的(例如,在背景帧中跑步在跳远类别中具有很高的片段得分,但这并不是一个完整的跳远动作)。为了充分探索实例级别的动作时间结构并优化提案的得分排名,我们引入了实例级动作完整性学习。该方法旨在通过实例级特征学习,在可靠的实例原型的指导下,优化提案的置信度得分和边界。

Reliable Prototype Construction.可靠原型构建。为了在训练期间利用点注释的实例级先验信息,我们提出了一种基于点的提案生成方法,该方法生成可靠的实例级原型提案,以及高置信度的正提案和负提案。首先,通过选择类别特定激活得分高于阈值 θ P \theta_P θP的片段,为每个预测类别生成候选提案(在实现中我们使用多个阈值)。计算每个候选提案的 OIC(内外对比)得分(Shou et al. 2018)来衡量其可靠性得分,表示为 p O I C p_{OIC} pOIC。较低的可靠性得分表示不完整或过度完整的预测。我们将每个候选提案表示为 ( s i , e i , c i , p O I C (s_i, e_i, c_i, p_{OIC} (si,ei,ci,pOIC),并根据其可靠性得分和时间位置将这些提案分为两种类型:(1)可靠提案( R P \mathbf{RP} RP):对于每个类别中的每个点,包含该点并且具有最高可靠性(即 OIC 得分)的提案;(2)正提案( P P \mathbf{PP} PP):所有剩余的候选提案。为了确保正样本和负样本数量的平衡,我们将类别无关注意得分低于预定义阈值 θ A {\theta}_{A} θA的片段分组,得到负提案( N P \mathbf{NP} NP)。

Reliability-aware Optimization.对于每个提案,我们选择提案区域内的所有片段特征作为其中心特征 I c I_c Ic,然后我们将提案的边界扩展比例 ϵ \epsilon ϵ以获得起始区域和结束区域,从而得到提案的起始特征 I s I_s Is和结束特征 I e I_e Ie。在实践中, ϵ \epsilon ϵ 设置为 0.25。

(1) 为了预测每个提案的完整性得分,我们使用边界敏感的提案特征,按照(Ren et al. 2023)的方法将其作为得分头 ϕ s \phi_s ϕs的输入。
在这里插入图片描述
其中, I ‾ s , I ‾ c , I ‾ e \overline{I}_s, \overline{I}_c, \overline{I}_e Is,Ic,Ie是分别沿时间维度进行最大池化的 I s , I c I_s, I_c Is,Ic I e I_e Ie的特征。

然后,实例级完整性得分的基于可靠性的监督可以表述为:
在这里插入图片描述

其中, N p N_p Np N n N_n Nn分别是正提案和负提案的总数, g c o m p g_{comp} gcomp表示提案与与其匹配的最可靠提案( R P \mathbf{RP} RP)之间的交并比(IoU)。

(2) 为了获得更准确的动作提案边界,我们将每个正提案 (PP) 的起始特征和结束特征输入到回归头 ϕ r \phi_r ϕr中,以预测起始时间和结束时间的偏移量,即 Δ s ^ \Delta \hat{s} Δs^ Δ e ^ \Delta \hat{e} Δe^
在这里插入图片描述
然后,可以得到细化后的提案:
在这里插入图片描述
其中, w p w_p wp = e p − s p e_p−s_p epsp为提案的长度。
然后,实例级边界回归的基于可靠性的监督可以表述为:
在这里插入图片描述
其中, r ^ c o m p \hat{r}_{comp} r^comp表示优化提案与与其匹配的最可靠提案(RP)之间的交并比(IoU)。

最后,基于可靠性的实例级完整性学习的总体目标函数包括回归损失和得分损失,并由参数 (\lambda_2) 加权,公式如下:
在这里插入图片描述

Temporal Action Localization Inference

我们首先提取每个视频的预测类别 P c P_{c} Pc的片段级预测和类别无关注意力 A A A,用于生成候选提案,表示为 ( s i , e i , c i , p O I C ) (s_i, e_i, c_i, p_{OIC}) (si,ei,ci,pOIC)。然后,我们将每个提案的实例级特征输入到得分和回归头,从而得出预测提案的两个部分:得分优化部分 ( s i , e i , c i , p O I C + p ^ c o m p ) (s_i, e_i, c_i, p_{OIC} + \hat{p}_{comp}) (si,ei,ci,pOIC+p^comp)和边界优化部分 ( s ~ r , e ^ r , c i , p O I C + p ^ r ) (\tilde{s}_r, \hat{e}_r, c_i, p_{OIC} + \hat{p}_r) (s~r,e^r,ci,pOIC+p^r),其中 p ^ r \hat{p}_r p^r是经过训练的得分头估计的优化提案的完整性得分。最后,我们将它们结合起来,并采用类别级的软非极大值抑制(soft-NMS)(Bodla et al. 2017)来删除重复提案。

Experiments

在这里插入图片描述

在这里插入图片描述

Conclusion

本文介绍了一种名为 HR-Pro 的新框架,用于点监督的时间动作定位。HR-Pro 包含两个基于可靠性的阶段,能够在片段和实例级别有效地传播点注释的高置信度线索,使网络能够学习更具判别力的片段表示和更可靠的提案。在多个基准上的大量实验表明,HR-Pro 显著优于现有方法并实现了最先进的结果,这证明了我们方法的有效性和点注释的潜力。

阅读总结

点监督,挺有意思的,跟普通的弱监督比,应该一个视频标注了一帧标签。比起普通的弱监督这类的文章好像相对较少一点。存储原型的方式放在这里应该是有效果的,因为这种标注可以得到准确的原型,应用到弱监督上感觉就有点困难了,可以尝试一下。

  • 11
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值