deep feature flow

因为如果将图片识别的网络直接引入视频中的帧,就会发现计算量就会很大
作者提出的这个网络利用的是
1,fowl estimetion,feature propagation,比一般的卷积计算速度快很多
2,在空间上找一个关键帧做图像识别,然后将 deep feature map 从关键帧传到其他的帧,通过光流网络。并且这两帧是很相似的,所以传递过来的特征与原始特征很相似。
2.并且整个结构是end to end ,使用了图像识别和光流网络,精度得到了很大的提高。
相关工作:
image recognition:deep learning,在语义分割中,fcn已经成为了主导的典范,但是直接将图像识别的方法应用到视频的识别任务中,就会不可承受的计算量、
network acceletation;matrix factorization,矩阵将大网络分解成多个小网络,网络的权重也被量化。
optical flow:以前解决光流的时候就是用small displacement。现在就用large displacement,combinatorial matching,
flownet 用深度CNN直接估计motion,其他工作也是尽量的发觉语义信息用来光流估计,针对特定区域的类别对光流进行限制。
Exploiting Temporal Information inVideo Recognition:
将时间和上下文信息进行和合并,stfcn 就是考虑了spatial-temporal fcn,提高了识别的准确率,但是增加了计算复杂度。
slow feature analysis:在视频中,高级语义信息一般比袭击的图像信息转化的慢,对于连续的视频帧,我们希望深度特征可以过度的很平滑。
Clockwork convnet:在特定视频帧中的网络层的些层不发挥作用,并且服用了以前的一些特征。但是他没有考虑到帧之间的相关性,并且只是简单的copy特征。只是减少了inference并没有进行微调和重新训练,总之就是这中方法只适应于用FCN进行的语义分割、
deep feature flow
将图像识别的卷积神经网络分解成两个连续的子网络,Nfeat(特征提取)+ Ntask(检测结果;)
Nfeat只是运行在空间上特定的关键帧上 ,非关键帧的特征图从关键帧传播而来。
利用第i帧得到i帧的特征,然后利用i、估计在flow field和scale field上进行估计,得到k,这是propagated,但是是free的并且完全不同的,在back-propagation中,计算导数。只有当空间帧被标注的时候,这个方法才可以很容易的在数据集上进行计算。
我们就要在图像内容发生重大变化的时候,重新选择一个帧,为了保值精度和速度。设计一个高效的自适应强的关键帧,通过从数据中学习一个有自适应的关键帧。
网络结构:
flownetwo:based on flownet。减少了flownet的每一层的卷积核,采用了flownet incepti结构,复杂度降低到1/8.
featurenetwork:使用了resnet,预训练,丢掉了最后1000个类别的分类层,特征如的stride从32 减少到16,这样可以避免稠密特征图,
k We use ResNet models [16], specifi-
cally, the ResNet-50 and ResNet-101 models pre-trained for
ImageNet classification as default. The last 1000-way classification
layer is discarded. The feature stride is reduced from 32 to 16 to produce denser feature maps, following the practice of DeepLab [4, 5] for semantic segmentation, and R-FCN [8] for object detection. The first block of the conv5 layers are modified to have a stride of 1 instead of 2. The holing algorithm [4] is applied on all the 3×3 convolutional kernels in conv5 to keep the field of view (dilation=2). A randomly initialized 3×3 convolution is appended to conv5 to reduce the feature channel dimension to 1024, where the holing algorithm is also applied (dilation=6). The resulting 1024-dimensional feature maps are the intermediate feature maps for the subsequent task.
semanti segmenntation:在中间层加入了1*1 的卷积层,,产生c+1个得分,其中包括c个类别和一个背景。softmax还是逐个像素的输出概率。
object detection:采用的是r-rcn,卷积网路的两个分支分别进行,一个是用来选择建议框,一个用来检测。RPN被使用,每个锚都会是不是这个类别,以及框的位置的四个值。极大值抑制在RPN产生的300个框上进行 ,阈值为0.7,roipooling就是获得每个区域的分得分 和回归的结果。
实验:
两个数据集就是:cityscapes:用来进行semantic segmentation
imageNet VID :object detetion
文中也对这两个数据集进行了介绍
其中ImageNet vid 用于视频中目标检测,里面有30个类别。作者训练的时候也用了imagenet det的数据集, 2:1

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值