基于深度学习的Action Recognition（行为识别）【二】

最新推荐文章于 2024-06-12 09:07:04 发布

王弗兰克

最新推荐文章于 2024-06-12 09:07:04 发布

阅读量3.6w

点赞数 37

分类专栏：计算机视觉论文

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/whfshuaisi/article/details/79116265

版权

本文发表在：知乎专栏

看了近一个月的论文，对行为识别领域中目前主流的基于深度学习的方法算是有了基本的认识。但今天只做总结，关于每一篇论文的详细理解，之后有时间补上。也欢迎指正交流。

下图为目前主流模型的比较。其中T3D标称效果好于I3D，但由于结果是作者复现得来，故在这里不做比较。顺序自上向下按UCF101的准确率排列。

Figure 1

首先，我把目前Action Recognition的研究方向（发论文的方向）分为三大类。

Structure
Inputs
Connection

下面依次用各类中典型的网络模型举例说明，文末会附上各类较为全面的论文/代码链接。注意，各类存在部分重叠。

Structure

Figure 2

这里的结构主要指网络结构。目前，主流的结构都是基于 Two-Stream Convolutional Networks 和 C3D 发展而来，所以这一块内容也主要讨论这两种结构的各种演化中作为benchmark的一些结构，详细的list参见文末。

首先讨论TSN模型，这是港中文汤晓鸥组的论文，也是目前的benchmark之一，许多模型也是在TSN的基础上进行了后续的探索。

Temporal Segment Networks: Towards Good Practices for Deep Action Recognition 【ECCV2016】

Figure 3

该论文继承了双流网络的结构，但为了解决long-term的问题，作者提出使用多个双流网络，分别捕捉不同时序位置的short-term信息，然后进行融合，得到最后结果。

Deep Local Video Feature for Action Recognition 【CVPR2017】

TSN改进版本之一。

Figure 4

改进的地方主要在于fusion部分，不同的片段的应该有不同的权重，而这部分由网络学习而得，最后由SVM分类得到结果。

Temporal Relational Reasoning in Videos

TSN改进版本二。

这篇是MIT周博磊大神的论文，作者是也是最近提出的数据集 Moments in time 的作者之一。

该论文关注时序关系推理。对于哪些仅靠关键帧（单帧RGB图像）无法辨别的动作，如摔倒，其实可以通过时序推理进行分类。如下图。

Figure 5

除了两帧之间时序推理，还可以拓展到更多帧之间的时序推理。

Figure 6

通过对不同长度视频帧的时序推理，最后进行融合得到结果。

最低0.47元/天解锁文章

关注

37
点赞
踩
213

收藏

觉得还不错? 一键收藏
18
评论
基于深度学习的Action Recognition（行为识别）【二】

本文发表在：知乎专栏看了近一个月的论文，对行为识别领域中目前主流的基于深度学习的方法算是有了基本的认识。但今天只做总结，关于每一篇论文的详细理解，之后有时间补上。也欢迎指正交流。下图为目前主流模型的比较。其中T3D标称效果好于I3D，但由于结果是作者复现得来，故在这里不做比较。顺序自上向下按UCF101的准确率排列。
复制链接

扫一扫

专栏目录

评论 18

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。