Temporal Action Detection (时序动作检测)方向2017年会议论文整理

本文整理了2017年CVPR, ICCV, AAAI等会议上的时序动作检测论文,涉及Temporal Action Detection和Proposal Generation。介绍了多种模型,如CDC、TAG、SSN等,讨论了3D CNN、GRU、 anchors等技术在视频动作定位中的应用,并探讨了未来改善提名模型以提升检测准确性的潜力。" 102488558,7540502,System Generator for DSP & Matlab: 设计与匹配问题,"['FPGA设计', 'MATLAB工具', '数字信号处理', '硬件描述语言', '系统生成']
摘要由CSDN通过智能技术生成

2017年马上要过去,自己也在时序动作检测这个方向正好做了一年时间,所以最近整理了一下今年各大视觉会议上(CVPR,ICCV,ACMMM,BMVC,AAAI等)时序动作检测这个方向的论文,供大家参考。

关于Temporal Action Detection (Localization) 时序动作检测这一方向的介绍,可以见我之前的专栏文章: Video Analysis 相关领域解读之Temporal Action Detection(时序行为检测)。简单来说,temporal action detection是要在视频序列中确定动作发生的时间区间(包括开始时间与结束时间)以及动作的类别。类似于图像中的目标检测任务,时序动作检测也可以分为生成时间区间提名(temporal action proposal generation)以及对提名进行分类(action recognition)俩个环节。今年有不少工作针对前者设计了模型,也在这篇文章中一并讨论。

Temporal Action Detection

如前所述,该方向的任务是视频序列中确定动作发生的时间区间(包括开始时间与结束时间)以及动作的类别。最常用的数据库为THUMOS14, 其余常用的数据库还包括MEXaction2, ActivityNet 1.2/1.3 等。常用的测评指标为mAP ( mean Average Precision)。

[1] CDC: Convolutional-De-Convolutional Networks for Precise Temporal Action Localization in Untrimmed Videos

  • 发表会议:CVPR 2017 (oral)

  • 性能:THUMOS14 上的mAP@0.5 为 24.7%,ActvitiyNet 1.3测试集上的average mAP为 22.9%

  • 基于C3D(3D CNN网络)设计了一个卷积逆卷积网络,输入一小段视频,输出frame-level的动作类别概率。该网络主要是用来对temporal action detection中的动作边界进行微调,使得动作边界更加准确,从而提高mAP。由于基于了层数不多的C3D网络,该方法的速度非常快,可以达到500FPS。

[2] Temporal Action Detection with Structur

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值