deep feature flow-CSDN博客

本文链接：https://blog.csdn.net/yychentracy/article/details/83961631

因为如果将图片识别的网络直接引入视频中的帧，就会发现计算量就会很大
作者提出的这个网络利用的是
1，fowl estimetion，feature propagation，比一般的卷积计算速度快很多
2，在空间上找一个关键帧做图像识别，然后将 deep feature map 从关键帧传到其他的帧，通过光流网络。并且这两帧是很相似的，所以传递过来的特征与原始特征很相似。
2.并且整个结构是end to end ，使用了图像识别和光流网络，精度得到了很大的提高。
相关工作：
image recognition：deep learning，在语义分割中，fcn已经成为了主导的典范，但是直接将图像识别的方法应用到视频的识别任务中，就会不可承受的计算量、
network acceletation；matrix factorization，矩阵将大网络分解成多个小网络，网络的权重也被量化。
optical flow：以前解决光流的时候就是用small displacement。现在就用large displacement，combinatorial matching，
flownet 用深度CNN直接估计motion，其他工作也是尽量的发觉语义信息用来光流估计，针对特定区域的类别对光流进行限制。
Exploiting Temporal Information inVideo Recognition：
将时间和上下文信息进行和合并，stfcn 就是考虑了spatial-temporal fcn，提高了识别的准确率，但是增加了计算复杂度。
slow feature analysis：在视频中，高级语义信息一般比袭击的图像信息转化的慢，对于连续的视频帧，我们希望深度特征可以过度的很平滑。
Clockwork convnet：在特定视频帧中的网络层的些层不发挥作用，并且服用了以前的一些特征。但是他没有考虑到帧之间的相关性，并且只是简单的copy特征。只是减少了inference并没有进行微调和重新训练，总之就是这中方法只适应于用FCN进行的语义分割、
deep feature flow
将图像识别的卷积神经网络分解成两个连续的子网络，Nfeat（特征提取）+ Ntask（检测结果；）
Nfeat只是运行在空间上特定的关键帧上，非关键帧的特征图从关键帧传播而来。
利用第i帧得到i帧的特征，然后利用i、估计在flow field和scale field上进行估计，得到k，这是propagated，但是是free的并且完全不同的，在back-propagation中，计算导数。只有当空间帧被标注的时候，这个方法才可以很容易的在数据集上进行计算。
我们就要在图像内容发生重大变化的时候，重新选择一个帧，为了保值精度和速度。设计一个高效的自适应强的关键帧，通过从数据中学习一个有自适应的关键帧。
网络结构：
flownetwo：based on flownet。减少了flownet的每一层的卷积核，采用了flownet incepti结构，复杂度降低到1/8.
featurenetwork：使用了resnet，预训练，丢掉了最后1000个类别的分类层，特征如的stride从32 减少到16，这样可以避免稠密特征图，
k We use ResNet models [16], specifi-
cally, the ResNet-50 and ResNet-101 models pre-trained for
ImageNet classification as default. The last 1000-way classification
layer is discarded. The feature stride is reduced from 32 to 16 to produce denser feature maps, following the practice of DeepLab [4, 5] for semantic segmentation, and R-FCN [8] for object detection. The first block of the conv5 layers are modified to have a stride of 1 instead of 2. The holing algorithm [4] is applied on all the 3×3 convolutional kernels in conv5 to keep the field of view (dilation=2). A randomly initialized 3×3 convolution is appended to conv5 to reduce the feature channel dimension to 1024, where the holing algorithm is also applied (dilation=6). The resulting 1024-dimensional feature maps are the intermediate feature maps for the subsequent task.
semanti segmenntation：在中间层加入了1*1 的卷积层，，产生c+1个得分，其中包括c个类别和一个背景。softmax还是逐个像素的输出概率。
object detection：采用的是r-rcn，卷积网路的两个分支分别进行，一个是用来选择建议框，一个用来检测。RPN被使用，每个锚都会是不是这个类别，以及框的位置的四个值。极大值抑制在RPN产生的300个框上进行，阈值为0.7，roipooling就是获得每个区域的分得分和回归的结果。
实验：
两个数据集就是：cityscapes:用来进行semantic segmentation
imageNet VID ：object detetion
文中也对这两个数据集进行了介绍
其中ImageNet vid 用于视频中目标检测，里面有30个类别。作者训练的时候也用了imagenet det的数据集， 2:1