这里写目录标题
论文地址:ttp://de.arxiv.org/pdf/1406.2199
论文:Two-Stream Convolutional Networks for Action Recognition in Videos
视频的行为识别
参考链接:
视频的行为识别
论文阅读笔记
使用DL方法解决视频中行为识别/动作识别的问题解决思路有三个分支:
分别是two-stream(双流)方法,C3D方法以及CNN-LSTM方法。
本文将从算法介绍、算法架构、参数配置、训练集预处理、算法优势及原因、运行结果六个方面对每种算法进行阐释,并对每一个分支的算法集合总结自己的心得。本文暂不区分行为识别(Activity Recognition)与动作识别(Action Recognition)。
前言
这一篇论文是动作检测中较早的一篇,阅读这篇论文有助于近几年最新论文的阅读。
**如何在静态的图像和动态过程之间捕获一种连接性的信息,让两者能够很好的联系起来?**这篇论文就针对这样的问题,提出了很好的方案,它介绍了一种双流卷积网络,来实现视频中的行为识别。
背景
视频相比于图像而言,是一帧帧图像的集合。因此,很自然可以想到从两个维度去提取视频信息:
空间信息:单帧图像包含的信息,独立于这个帧的表面信息(也就是视频中的物体和场景信息)
时间信息:就是帧间的光流,它会携带帧之间的运动信息;多帧图像之间包含的运动信息;
所以文章就想能否同时利用视频的空间信息与时间信息,来更好的提取视频特征,进而进行视频分类任务。
内容组成
1.1部分,我们回顾了有关使用浅层、深层的架构的动作识别的相关工作。
第2部分,我们介绍了two-stream架构,并且详细介绍了空间卷积网络。
第3部分,介绍了时间卷积网络,并且特别介绍了它如何推广到1.1节中介绍的先前的网络。
第4部分,提出多任务学习框架</