时序行为检测论文:Step-by-step Erasion, One-by-one Collection: A Weakly Supervised Temporal Action Detector

论文介绍了一种弱监督方法,通过逐帧擦除视频并训练分类器,解决时间动作检测中的矛盾。模型利用FC-CRF优化时空定位,超越同类无监督方法,接近部分强监督技术。实验在THUMOS'14和ActivityNet上验证了其有效性。
摘要由CSDN通过智能技术生成

Step-by-step Erasion, One-by-one Collection: A Weakly Supervised Temporal Action Detector

Jia-Xing Zhong, Nannan Li, Weijie Kong, Tao Zhang, Thomas H. Li, and Ge Li. 2018. Step-by-step Erasion, One-by-one Collection: A Weakly Supervised Temporal Action Detector. In Proceedings of the 26th ACM international conference on Multimedia (MM '18). Association for Computing Machinery, New York, NY, USA, 35–44. https://doi.org/10.1145/3240508.3240511

Abstract:Weakly supervised temporal action detection is a Herculean task in understanding untrimmed videos, since no supervisory signal except the video-level category label is available on training data. Under the supervision of category labels, weakly supervised detectors are usually built upon classifiers. However, there is an inherent contradiction between classifier and detector; i.e., a classifier in pursuit of high classification performance prefers top-level discriminative video clips that are extremely fragmentary, whereas a detector is obliged to discover the whole action instance without missing any relevant snippet. To reconcile this contradiction, we train a detector by driving a series of classifiers to find new actionness clips progressively, via step-by-step erasion from a complete video. During the test phase, all we need to do is to collect detection results from the one-by-one trained classifiers at various erasing steps. To assist in the collection process, a fully connected conditional random field is established to refine the temporal localization outputs. We evaluate our approach on two prevailing datasets, THUMOS’14 and ActivityNet. The experiments show that our detector advances state-of-the-art weakly supervised temporal action detection results, and even compares with quite a few strongly supervised methods.

Intro:

  • 弱监督时间动作检测在理解未修剪视频方面是一项艰巨的任务,因为除了视频级别的类别标签之外没有任何监督信号可用于训练数据。
  • 在类别标签的监督下,弱监督检测器通常建立在分类器之上。但是,分类器和检测器之间存在着内在的矛盾;即,追求高分类性能的分类器更喜欢极其碎片化的顶级判别视频剪辑,而检测器必须发现整个动作实例而不会丢失任何相关片段。
  • 本文通过驱动一系列分类器来训练检测器,通过从完整视频中逐步擦除来寻找动作片段
本文目标问题:

本文尝试解决的问题是时序行为检测问题。在该问题上,模型预测动作类别以及动作实例在视频中的时间位置。在弱监督学习任务中,仅提供视频级别的类别标签作为监督信号,并且在训练过程中未修剪包含与背景混合的动作实例的视频剪辑。

本文贡献:
  1. 本文提出了一个弱监督模型来检测未修剪视频中的时间动作。该模型通过对视频的逐步擦除进行训练,以获得一系列分类器。在测试阶段,通过收集一对一分类器的检测结果,可以方便地应用模型。
  2. 本文第一个将FC-CRF 引入时序行为检测任务的工作,它被用来结合人类的先验知识和神经网络的普通输出。实验结果表明,FC-CRF 在 ActivityNet 上将检测性能提高了 20.8% mAP@0.5。
  3. 我们对两个具有挑战性的未修剪视频数据集进行了广泛的实验,即 ActivityNetTHUMOS’14 ;结果表明,我们的检测器在使用许多强监督方法的时间动作检测方面取得了相当的性能。

模型结构

模型由两部分组成:对视频进行逐步擦除的训练和通过从一对一分类器收集结果进行测试。在训练过程中,逐步删除动作发生置信度高的片段。通过这样做,本文获得了一系列分类器,它们对不同类型的动作片段具有各自的偏好。在测试阶段,根据训练好的分类器迭代地选择带有动作实例的片段,并通过 FC-CRF 细化融合结果。

模型结构

逐步擦除训练

如图所示,交替使用 3 个操作:擦除概率计算、片段擦除和分类器训练。
假设视频 V = { v n } n = 1 N V=\left \{ v_n\right \}^N_{n=1} V={vn}n=1N包含 N N N个片段,具有 K K K个视频级别的类别标签 Y = { y k } k = 1 K Y=\left \{ y_k\right \}^K_{k=1} Y={yk}k=1K。给定由参数 θ \theta θ控制的片段分类器,可以得到普通分类得分 ϕ ( V ; θ ) ∈ R N × C \phi(V;\theta)\in \mathbb{R}^{N\times C} ϕ(V;θ)RN×C, C C C是所有类别的数量。
在第t个擦除步骤,将视频剩余片段表示为 V t V^t Vt,分类器表示为 θ t \theta^t θt,对分类得分 ϕ ( V t ; θ t ) \phi(V^t;\theta^t) ϕ(Vt;θt)的第i行 ϕ i \phi_i ϕi(第 i i i个剪辑的原始分类分数)。使用Softmax归一化计算第j类的片段内概率:
p i , j ( V t ) = e x p ( ϕ i , j ) ∑ c = 1 C e x p ( ϕ i , c ) (1) p_{i,j}(V^t)=\frac{exp(\phi_{i,j})}{\sum^C_{c=1}exp(\phi_{i,c})}\tag{1} pi,j(Vt)=c=1Cexp(ϕi,c)exp(ϕi,j)(1)
但是softmax 变换可能会放大背景剪辑的噪声激活响应。此外,仅对单个片段进行建模不足以利用整个视频中不同片段之间的全局信息。因此定义了关于第j类在第i个片段的片段间软掩码:
a i , j ( V t ) = δ τ ( ϕ i , j − m i n ϕ : , j m a x ϕ : , j − m i n ϕ : , j ) (2) a_{i,j}(V^t)=\delta_{\tau}(\frac{\phi_{i,j}-min\phi_{:,j}}{max\phi_{:,j}-min\phi_{:,j}})\tag{2} ai,j(Vt)=δτ(maxϕ:,jminϕ:,jϕi,jminϕ:,j)(2)
其中
δ τ ( . ) = { 1 i f . > τ . τ o t h e r w i s e (3) \delta_{\tau}(.)=\begin{cases} 1& if .>\tau \\ \frac{.}{\tau}&otherwise \end{cases}\tag{3} δτ(.)={1τ.if.>τotherwise(3)
阈值 τ \tau τ代表擦除标准有多严格, τ \tau τ越大代表视频越少
掩码 a i , j a_{i,j} ai,j可以减轻背景片段的噪声,擦除几率通过如下公式计算:
s i , j ( V t ) = a i , j ( V t ) p i , j ( V t ) (4) s_{i,j}(V^t)=a_{i,j}(V^t)p_{i,j}(V^t) \tag{4} si,j(Vt)=ai,j(Vt)pi,j(Vt)(4)
在当前擦除步骤 t t t结束时,我们根据其擦除概率 s s s从剩余视频中删除片段,并在下一个擦除步骤 t + 1 t + 1 t+1中利用剩余片段训练一个新的分类器。具体算法如图所示:
算法

算法解析
  • 首先输入初始化分类器参数 θ 0 \theta^0 θ0,软掩膜阈值 τ \tau τ,包括视频和标签的训练集 D 0 D^0 D0
  • 在第 t t t次擦除中,使用第t-1次擦除后的训练集 D t − 1 D^{t-1} Dt1 θ t − 1 \theta^{t-1} θt1训练 θ t \theta^t θt。将 D t D^t Dt初始化为空集, 对 D t − 1 D^{t-1} Dt1中的所有视频 V t − 1 V^{t-1} Vt1计算分类得分和软掩膜,进而计算擦除几率 s s s, 获取擦除片段 E = { v i ∣ s i , j ( V t ) > ϵ i } E=\left \{ v_i|s_{i,j}(V^t)>\epsilon_i\right \} E={visi,j(Vt)>ϵi},从其中擦除 E E E,获得新的片段。

除此之外:
通过过度擦除挖掘出来的分散的视频片段很难组合成一个连续的片段。因此,在第 T 步的第 j 个类别的整数擦除段的归一化数量是一个有用的标准:
m j T = M j T M j 1 (5) m^T_j=\frac{M^T_j}{M^1_j}\tag{5} mjT=Mj1MjT(5)
其中 MTj 由删除了直到第 T 步的连续剪辑的视频片段组成,其基数由 |M1j | 归一化。以减轻各种动作时长的干扰。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值