深度学习-视频行为识别:论文阅读——双流网络(Two-stream convolutional networks for action recognition in videos)


论文地址:ttp://de.arxiv.org/pdf/1406.2199
论文:Two-Stream Convolutional Networks for Action Recognition in Videos

视频的行为识别

参考链接:
视频的行为识别
论文阅读笔记
使用DL方法解决视频中行为识别/动作识别的问题解决思路有三个分支:
分别是two-stream(双流)方法,C3D方法以及CNN-LSTM方法

本文将从算法介绍、算法架构、参数配置、训练集预处理、算法优势及原因、运行结果六个方面对每种算法进行阐释,并对每一个分支的算法集合总结自己的心得。本文暂不区分行为识别(Activity Recognition)与动作识别(Action Recognition)。

前言

这一篇论文是动作检测中较早的一篇,阅读这篇论文有助于近几年最新论文的阅读。

**如何在静态的图像和动态过程之间捕获一种连接性的信息,让两者能够很好的联系起来?**这篇论文就针对这样的问题,提出了很好的方案,它介绍了一种双流卷积网络,来实现视频中的行为识别。

背景

视频相比于图像而言,是一帧帧图像的集合。因此,很自然可以想到从两个维度去提取视频信息:

空间信息:单帧图像包含的信息,独立于这个帧的表面信息(也就是视频中的物体和场景信息)
时间信息:就是帧间的光流,它会携带帧之间的运动信息;多帧图像之间包含的运动信息;
所以文章就想能否同时利用视频的空间信息与时间信息,来更好的提取视频特征,进而进行视频分类任务。

内容组成

1.1部分,我们回顾了有关使用浅层、深层的架构的动作识别的相关工作。
第2部分,我们介绍了two-stream架构,并且详细介绍了空间卷积网络。
第3部分,介绍了时间卷积网络,并且特别介绍了它如何推广到1.1节中介绍的先前的网络。
第4部分,提出多任务学习框架</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值