2017年马上要过去,自己也在时序动作检测这个方向正好做了一年时间,所以最近整理了一下今年各大视觉会议上(CVPR,ICCV,ACMMM,BMVC,AAAI等)时序动作检测这个方向的论文,供大家参考。
关于Temporal Action Detection (Localization) 时序动作检测这一方向的介绍,可以见我之前的专栏文章: Video Analysis 相关领域解读之Temporal Action Detection(时序行为检测)。简单来说,temporal action detection是要在视频序列中确定动作发生的时间区间(包括开始时间与结束时间)以及动作的类别。类似于图像中的目标检测任务,时序动作检测也可以分为生成时间区间提名(temporal action proposal generation)以及对提名进行分类(action recognition)俩个环节。今年有不少工作针对前者设计了模型,也在这篇文章中一并讨论。
Temporal Action Detection
如前所述,该方向的任务是视频序列中确定动作发生的时间区间(包括开始时间与结束时间)以及动作的类别。最常用的数据库为THUMOS14, 其余常用的数据库还包括MEXaction2, ActivityNet 1.2/1.3 等。常用的测评指标为mAP ( mean Average Precision)。
[1] CDC: Convolutional-De-Convolutional Networks for Precise Temporal Action Localization in Untrimmed Videos
发表会议:CVPR 2017 (oral)
性能:THUMOS14 上的mAP@0.5 为 24.7%,ActvitiyNet 1.3测试集上的average mAP为 22.9%
基于C3D(3D CNN网络)设计了一个卷积逆卷积网络,输入一小段视频,输出frame-level的动作类别概率。该网络主要是用来对temporal action detection中的动作边界进行微调,使得动作边界更加准确,从而提高mAP。由于基于了层数不多的C3D网络,该方法的速度非常快,可以达到500FPS。
[2] Temporal Action Detection with Structur