基于深度学习的Action Recognition(行为识别)【二】

本文发表在: 知乎专栏


看了近一个月的论文,对行为识别领域中目前主流的基于深度学习的方法算是有了基本的认识。但今天只做总结,关于每一篇论文的详细理解,之后有时间补上。也欢迎指正交流。

下图为目前主流模型的比较。其中T3D标称效果好于I3D,但由于结果是作者复现得来,故在这里不做比较。顺序自上向下按UCF101的准确率排列。
Figure 1

首先,我把目前Action Recognition的研究方向(发论文的方向)分为三大类。
  1. Structure
  2. Inputs
  3. Connection
下面依次用各类中典型的网络模型举例说明,文末会附上各类较为全面的论文/代码链接。注意,各类存在部分重叠。

Structure

Figure 2
这里的结构主要指网络结构。目前,主流的结构都是基于 Two-Stream Convolutional Networks C3D 发展而来,所以这一块内容也主要讨论这两种结构的各种演化中作为benchmark的一些结构,详细的list参见文末。

首先讨论TSN模型,这是港中文汤晓鸥组的论文,也是目前的benchmark之一,许多模型也是在TSN的基础上进行了后续的探索。
Figure 3
该论文继承了双流网络的结构,但为了解决long-term的问题,作者提出使用多个双流网络,分别捕捉不同时序位置的short-term信息,然后进行融合,得到最后结果。

TSN改进版本之一。
Figure 4
改进的地方主要在于fusion部分,不同的片段的应该有不同的权重,而这部分由网络学习而得,最后由SVM分类得到结果。

TSN改进版本二。
这篇是MIT周博磊大神的论文,作者是也是最近提出的数据集 Moments in time 的作者之一。
该论文关注时序关系推理。对于哪些仅靠关键帧(单帧RGB图像)无法辨别的动作,如摔倒,其实可以通过时序推理进行分类。如下图。
Figure 5
除了两帧之间时序推理,还可以拓展到更多帧之间的时序推理。
Figure 6
通过对不同长度视频帧的时序推理,最后进行融合得到结果。
  • 37
    点赞
  • 213
    收藏
    觉得还不错? 一键收藏
  • 18
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 18
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值