深度学习-视频行为识别：论文阅读——双流网络（Two-stream convolutional networks for action recognition in videos）

最新推荐文章于 2025-03-06 10:31:10 发布

盏云

最新推荐文章于 2025-03-06 10:31:10 发布

阅读量1.4w

点赞数 14

文章标签：深度学习音视频网络

本文链接：https://blog.csdn.net/zhe470719/article/details/121796714

版权

这里写目录标题

视频的行为识别
前言
背景
内容组成
主要贡献
算法介绍
网络结构
多任务学习
- 背景
- 解决
- 目的

论文地址：ttp://de.arxiv.org/pdf/1406.2199
论文：Two-Stream Convolutional Networks for Action Recognition in Videos

视频的行为识别

参考链接：
视频的行为识别
 论文阅读笔记
使用DL方法解决视频中行为识别/动作识别的问题解决思路有三个分支：
分别是two-stream(双流)方法，C3D方法以及CNN-LSTM方法。

本文将从算法介绍、算法架构、参数配置、训练集预处理、算法优势及原因、运行结果六个方面对每种算法进行阐释，并对每一个分支的算法集合总结自己的心得。本文暂不区分行为识别(Activity Recognition)与动作识别(Action Recognition)。

前言

这一篇论文是动作检测中较早的一篇，阅读这篇论文有助于近几年最新论文的阅读。

**如何在静态的图像和动态过程之间捕获一种连接性的信息，让两者能够很好的联系起来？**这篇论文就针对这样的问题，提出了很好的方案，它介绍了一种双流卷积网络，来实现视频中的行为识别。

背景

视频相比于图像而言，是一帧帧图像的集合。因此，很自然可以想到从两个维度去提取视频信息：

空间信息：单帧图像包含的信息，独立于这个帧的表面信息（也就是视频中的物体和场景信息）
时间信息：就是帧间的光流，它会携带帧之间的运动信息；多帧图像之间包含的运动信息；
所以文章就想能否同时利用视频的空间信息与时间信息，来更好的提取视频特征，进而进行视频分类任务。

内容组成

1.1部分，我们回顾了有关使用浅层、深层的架构的动作识别的相关工作。
第2部分，我们介绍了two-stream架构，并且详细介绍了空间卷积网络。
第3部分，介绍了时间卷积网络，并且特别介绍了它如何推广到1.1节中介绍的先前的网络。
第4部分，提出多任务学习框架</

最低0.47元/天解锁文章