STEP:Spatio-Temporal Progressive Learning for Video Action Detection
用于视频动作检测的时空渐进学习
摘要:
本文提出了一种用于视频时空动作检测的渐进学习框架——时空渐进动作检测器。从几个粗略的建议长方体开始,我们的方法通过几个步骤逐步细化建议,使之成为行动。这样,高质量的提案(即遵守动作)可以通过利用前面步骤的回归输出,在后面的步骤中逐步获得。在每一个步骤中,我们都及时自适应地扩展提案,以包含更多相关的时间上下文。与以往一次运行中执行动作检测的工作相比,我们的渐进学习框架能够自然地处理动作管内的空间位移,因此为时空建模提供了更有效的方法。我们广泛评估了我们在UCF101和AVA上的方法,并证明了优越的检测结果。值得注意的是,我们通过3个渐进步骤,分别使用11个和34个初始建议,在两个数据集上实现了75.0%和18.6%的mAP。
1.介绍
时空动作检测的目的是识别视频中出现的感兴趣的动作,并对其进行时空定位。灵感来自于目标检测在图像领域的进步(8,21),最近的工作方法基于标准二级框架:这个任务在第一阶段行动建议由区域提议算法或密集采样的锚点产生,并在第二阶段建议用于分类和本地化改进行动。
与图像中的目标检测相比,视频中的时空动作检测是一个更具挑战性的问题。考虑到视频的时间特性,上述两个阶段都带来了新的挑战。首先,一个行动管(即一个动作的包围框序列)通常涉及随着时间的推移而发生的空间位移,这为提案的生成和细化带来了额外的复杂性。其次,有效的时间建模对于准确的操作分类是必不可少的,因为只有当时间上下文信息可用时,才能识别许多操作。
先前的工作通常通过在剪辑(即,短视频片段)级别执行动作检测来利用时间信息。例如,[12,17]将一系列帧作为输入,输出每个剪辑的动作类别和回归的小管。为了生成行动建议,他们将2D区域建议随着时间的推移复制到3D,假设空间范围固定在一个剪辑中。然而,对于空间位移较大的动作管,特别是当剪辑较长或涉及到演员或相机的快速运动时,这种假设就会被打破。因此,直接使用长长方体作为行动建议并不是最优的,因为它们为行动分类引入了额外