Temporal Action Detection (时序动作检测)方向2017年会议论文整理

最新推荐文章于 2022-11-09 21:14:04 发布

Will-Lin

最新推荐文章于 2022-11-09 21:14:04 发布

阅读量5.7k

点赞数 1

分类专栏：计算机视觉文章标签：深度学习计算机视觉人工智能算法视频分析

本文链接：https://blog.csdn.net/wzmsltw/article/details/78666400

版权

本文整理了2017年CVPR, ICCV, AAAI等会议上的时序动作检测论文，涉及Temporal Action Detection和Proposal Generation。介绍了多种模型，如CDC、TAG、SSN等，讨论了3D CNN、GRU、 anchors等技术在视频动作定位中的应用，并探讨了未来改善提名模型以提升检测准确性的潜力。" 102488558,7540502,System Generator for DSP & Matlab: 设计与匹配问题,"['FPGA设计', 'MATLAB工具', '数字信号处理', '硬件描述语言', '系统生成']

摘要由CSDN通过智能技术生成

2017年马上要过去，自己也在时序动作检测这个方向正好做了一年时间，所以最近整理了一下今年各大视觉会议上（CVPR，ICCV，ACMMM，BMVC，AAAI等）时序动作检测这个方向的论文，供大家参考。

关于Temporal Action Detection (Localization) 时序动作检测这一方向的介绍，可以见我之前的专栏文章： Video Analysis 相关领域解读之Temporal Action Detection(时序行为检测)。简单来说，temporal action detection是要在视频序列中确定动作发生的时间区间（包括开始时间与结束时间）以及动作的类别。类似于图像中的目标检测任务，时序动作检测也可以分为生成时间区间提名（temporal action proposal generation）以及对提名进行分类（action recognition）俩个环节。今年有不少工作针对前者设计了模型，也在这篇文章中一并讨论。

Temporal Action Detection

如前所述，该方向的任务是视频序列中确定动作发生的时间区间（包括开始时间与结束时间）以及动作的类别。最常用的数据库为THUMOS14，其余常用的数据库还包括MEXaction2, ActivityNet 1.2/1.3 等。常用的测评指标为mAP ( mean Average Precision)。

[1] CDC: Convolutional-De-Convolutional Networks for Precise Temporal Action Localization in Untrimmed Videos

发表会议：CVPR 2017 (oral)
性能：THUMOS14 上的mAP@0.5 为 24.7%，ActvitiyNet 1.3测试集上的average mAP为 22.9%
基于C3D（3D CNN网络）设计了一个卷积逆卷积网络，输入一小段视频，输出frame-level的动作类别概率。该网络主要是用来对temporal action detection中的动作边界进行微调，使得动作边界更加准确，从而提高mAP。由于基于了层数不多的C3D网络，该方法的速度非常快，可以达到500FPS。

[2] Temporal Action Detection with Structur