李沐AI论文精读笔记——双流网络的开山之作

入坑CV的一枚小白

已于 2022-04-14 19:11:38 修改

阅读量3.7k

点赞数

分类专栏： AI论文精读网络解析文章标签：计算机视觉深度学习神经网络

于 2022-04-14 19:04:58 首次发布

本文链接：https://blog.csdn.net/weixin_44654302/article/details/124171916

版权

网络解析同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

AI论文精读

1 篇文章 0 订阅

订阅专栏

论文名称：Two-Stream Convolutional Networksfor Action Recognition in Videos
论文下载连接： https://arxiv.org/abs/1406.2199

前言

双流网络的诞生是由于卷积神经网络对于局部特征信息比较敏感，但是对于视频信息处理效果并不好，本文作者将网络分为时间流和空间流，空间流处理单帧图片，时间流处理多帧的光流图片，经过一系列的卷积操作，每个分流网络都会得到一个概率值，去加权平均得到预测概率。

一、摘要

作者将卷积神经网络用于视频中的动作识别，难点在于如何将视频中appearance信息（appearance信息包括外表、形状，背景信息等）和motion be-tween frames（运动信息，也就是视频中的时序信息）有效的结合起来。
文章的贡献有三个，一是采用双流的卷积神经网络分别是时间流网络和空间流网络，二是在训练数据集少的情况下，效果也很好，三是在两个数据集上进行合并进行训练(UCF-101和hmdb-51数据集)。

二、引言

Large-Scale Video Classification with Convolutional Neural Networks一文中也使用了卷积神经网络用于视频中的动作识别，以视频帧堆叠作为输入端，得到效果并不好，并没有充分的考虑到运动信息。这是因为卷积神经网络对于局部的特征信息提取表现良好，但是对于运动信息效果并不好。作者的思想启发来自于人类的视觉得到的信息是双向，有时序信息也有静态信息，才有了双向网络的开创。

三、双流网络的架构

在这里插入图片描述
双流架构分为空间流和时间流，如图所示都是5个卷积层，2个全连接层，1个softmax，也就是我们熟知的Alexnet，空间流的输入端是单个帧，也就是静态的信息；时间流的输入端是多光流图片的堆叠，假如，视频帧长11，得到的光流图是11-1=10，channel就等于2*10=20，（2个维度可以理解为水平和竖直方向上的维度，先是水平方向上的叠加，再是竖直方向上的叠加），最后再经过一个late fusion，预测概率加权平均，得到最终的概率。
hand-crafted的解释
 early fusion VS later fusion

1.Optical flow ConvNets

图中是连续的两个视频帧，两个视频帧得到一个光流，（d）和（e）来表示水平和竖直方向上的维度，用来表示运动信息
在这里插入图片描述

2.时间流卷积神经网络的两种输入方式

2.1 Optical flow stacking.

第一种的光流的叠加方式，就是简单的进行堆叠，不做任何处理，这种方法不会很好的利用光流信息
在这里插入图片描述

2.2Trajectory stacking.

第二种方法是利用光流的运动轨迹叠加，已知在第一个光流图中的p1点移动到p2时，在下一帧p2点找它在下一帧的对应的位置p3.这种方法很好的利用了光流信息
在这里插入图片描述
明显第二种的方法更加合理，但是实验结果表明光流的简单堆叠效果优于光流轨迹的叠加，在之后的2015年CVPR中就有人解决了这个问题（作者：王利民老师，论文名称：Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors），采用了光流轨迹的方法，效果提升显著。

四、总结

1.文章的结论存在相机自带的移动，而不是物体的移动，可采用直接减均值的方法来平衡
2.当我们发现卷积神经网络不能处理运动信息时，我们就教网络自己学习，于是就有了光流图的堆叠，也还是连续帧的图片
3.使用单一的神经网络或许不能够解决问题，当我们使用双流的神经网络的时候，往往会达到互补的作用，效果肯定是优于单个的神经的网络，这样的思路也为我们的研究提供了方向。

入坑CV的一枚小白

关注

0
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
李沐AI论文精读笔记——双流网络的开山之作

李沐AI论文精读笔记提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加论文名称：Two-Stream Convolutional Networksfor Action Recognition in Videos论文连接：提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录李沐AI论文精读笔记前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越
复制链接

扫一扫