Impression Net

摘要
包含一个神经网络和一个有效的特征融合机制。
那么印象网络是怎样建立的呢?即使迭代的吸收来自视频帧的提取出来的稀疏的特征。在视频中传播的是impression feature。这样可以增强低质量的特征,也可以用最小的开销融合相聚比较远的稀少的关键帧的特征。
impression帧在视频中积累,最重要的是,将这个与稀疏帧的特征提取组合起来。将视频分为几个相等的模块,每个segment就只会有一个关键帧在深度网路中进行特征提取。

1提出的背景
例如faster-rcnn这一系列的网络在在图像检测方面已经取得了很好的效果,但是直接将图像检测器运用到视频中的每一帧,就面临这各种问题,比如图像检测器需要的是大型的特征网络,即使在GPU上运行的也是很慢的,而且不准确,在视频中由于运动和虚焦导致目标出现视觉模糊的现象,使得相应帧的检测不够准确。
因为基于特诊融合的网络使得检测器可以检测到低质量的帧,提高了检测的精度,但是牺牲了检测的速度,因为多特征融合成本很高,降低了框架的运行速度。
基于特征传播的机制。特征提取是采用稀疏采样的方法,对关键帧进行特征提取,然后非关键帧的特征由关键帧传播过来。考虑到了临近帧的冗余信息,节省了网络的推断时间。但是牺牲了检测的精度。
impression network,将视频分为长度相等的片段,对于每个片段值选择一个关键的帧进行深度特征提取,用光流知道特征传播,关键帧的特征被非关键帧重复使用。提取的关键帧特征不仅送到任务网络,而且被印象特种吸收。然后特征继续传播到下一个网络。
下一个帧的任务特种就是自身特征和印象特征的加权组合,并且吸收该特征来更新印象特征,这个过程会持续到整个视频结束、印象特征积累了高质量的视频对象信息并且一直向后传播,有助于增强传入的关键特征。
印象特征还可以提高速度,因为通过迭代聚合策略可以醉倒限度的降低特征融合的成本 。
算法流程如下:
1,以一定的长度进行划分,然后每一个划分里面只有一个关键帧。
关键帧的特征通过特征网络提取特征,然后通过。flow-guided warping 传播到剩余帧中,光流是通过一个轻量级的光流网络进行计算的。
2最后。所有的特征被送到任务网络,产生最终的检测到结果。
impression network
在这里插入图片描述
如上面这张图所示:公式如下:
在这里插入图片描述
首先将所有的视频分为相等的片段,每个片段里面只有一帧被选为关键帧feature,这个关键帧特征可以送给
在这里插入图片描述
也就是他延续了DFF的方法,就是利用光流估计非关键帧的特征,并且把之前的帧的特征用一个印象网络存放起来,
对于关键帧:
每次当前关键帧的任务特征都是印象特征和当前关键帧的特征的一个加权组合,这样的话,就不会忘记之前的帧的特征,就有一种记忆的效果。这个印象帧的特征就是通过上一个印象帧的特征加上当前帧的特征,当前帧的任务特征就是上一帧的印象特征加上当前帧的特征。
对于每一个非关键帧:
task通过在这一个segment中,每一个非关键帧都是通过关键帧进行光流传播得到的,然后送到task中。
对比之前的:
DFF在这里插入图片描述
提取关键帧后,只对关键帧的进行特征提取,然候进去任务网路进行特征提取,非关键帧的特征通过关键帧分特征进行特征传递基于光流的特征估计,然后将这个估计的特征送入非关键帧的task用于特定的任务。
这个网路提高了速度,但是精度不高,因为非关键帧的特征都是经过光流估计的。
FGFA:
在这里插入图片描述
FGFA的特点就是精度很高,但是速度很慢,因为它的每一帧都是经过前后帧的wraped的,所以精度很高每一帧都是wraped的特征加上自己本身的特征通过一定的权重进行聚合。
在这里插入图片描述
总结
impression 网络比快速的DFF提高了精度,因为使用印象机制,这样就可以将之前帧的特征传递到当先帧。比FGFA提高了速度,不是每一帧都进行特征提取,只对关键帧进行特征提取,然后非关键帧的特征都是进行特征传递的。
好了,终于把他总结好了,但是我还是有很多不明白地方。
损失函数怎么计算的,还有,网络训练的时候就不是很清楚的

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值