Flow -Guided feature Aggregation for video object detection

最新推荐文章于 2021-09-18 20:46:30 发布

沙雅云

最新推荐文章于 2021-09-18 20:46:30 发布

阅读量1.3k

点赞数

分类专栏：视频中的目标检测

本文链接：https://blog.csdn.net/yychentracy/article/details/83994715

版权

视频中的目标检测专栏收录该内容

9 篇文章 0 订阅

订阅专栏

这篇文章是对之前的deep-featureflow的一个延续，利用了前后帧的信息来加强当前帧的特征，从而得到较好的识别度，但是速度上回很慢。
基于流引导的特征聚合，端到端的学习框架，利用时间一致性，沿着运动轨迹聚合附近的帧，来提高每一帧的特征。这种方法对于strong single-frame baselines in ImageNet VID 有很大的改进，并且对于快速移动的物体效果显著。
1.intruduction
针对于still image的检测器对于快速移动的物体的检测效果是很差的，并且视频中包含大量的信息，想把时间信息引入still image detector，就是首先在单帧图像上引入传统的目标检测器，然后在后续处理过程中，组合这些跨越事假维度的检测边框，。这些方法依赖于光流估计和手工设计的边界框的关联规则。只是应用于单针的检测框，并没有提高检测的质量。通过实践聚合来改变每一帧的特征学习，由于视频运动，相同实例的特征通常不会跨帧对其。原始的特征聚合可能会恶化检测性能，所以学习运动信息是很重要的。
将特征提取网路应用于各个帧，来生成每一帧的特征映射。为了提高参考帧的特征，利用光流网络对附近的帧和参考帧进行运动估计。wraped的帧和自己的参考帧通过自适应权重网络进行聚合。然后将生成的聚合特征映射反馈给检测网络，在参考帧上生成检测结果。对所有的特征提取、流估计、特征聚集和检测模块进行端到端训练。
2related work
1.Object detection from image
CNN-RCNN-roipooling（spp+fast-rcnn）-r-fcn（这些都是针对still image）结合了时间信息来提高卷积网络的性能。
2Object detection in video
将图像检测引入视频领域，几乎所有的方法都是将时间信息在最有一个bbox的后处理阶段上引入。T_CNN就是痛过预先计算好的光流信息将估计的bbox传播到相邻帧。从高置信度的bbox中产生tubelet，沿着小管的边框对小管重新计算得分。
Seq-NMS：从连续帧中的附近的高资信度边框中构造序列。序列的框被重新得分到平均置信度，其他接近这个序列的框被抑制。
MCMOT：将后处理归结于多目标追踪问题，一系列手工设计的特征被用于决定那个框属于追踪目标，进一步细化追踪结果。
以上的方法都是多管道的，每一个阶段的结果都依赖于之前阶段的结果，但是之前阶段错误就很难纠正。本方法在特征层面融入时间信息而不是最后的bbox阶段，并且也结合了bbox的后续处理步骤去提高识别的精度、
Motion estimation by flow :时间信息需要原始像素或者特征的对应关系来建立。传统的方法都是针对小位移的，现在的方法主要是大位移和匹配组合集成到variation approach。最近的flownet引入了光流，dff,利用视频中的冗余信息可以提高视频是别的速度，但是精度有些下降。训练了flow和recognition。we focus on another aspect of associating and assembling the rich appearance information in consecutive frames to improve the feature representation, and then the video recognition accuracy。
feature aggragation：动作识别中特征融合是经常的，使用当前的神经网络组合来信连续帧的特征，另一方面，是空卷积可以直接提取时空的特征。卷积核的大小限制快速移动物体的建模加入大的卷积核就要加入一个超参数，就会过拟合，计算量增加和内训的消耗，我们的方法是基于流引导的聚合。可以扩展到不同类型的聚合运动。
Vusual tracking：
用一个二分类的层在预训练的卷积层中组合这些共享层，，追踪与视屏中的目标检测不一样的，Tracking is apparently different from the video object detection task, because it assumes the initial localization of an object in the first frame and it does not require predicting class labels.
3.flow guided feature aggregation
基本的方法就是利用现成的对象检测器是对每一帧都这么搞
nfeat是用来对输入图像进行特征提取的，ndet 是针对特征图产生输出的。在视频中相同目标在单针中会产生巨大的变化，可能由于运动模糊，有些类别在参考帧中的特征比较低，就发现在参考帧附件的帧中，有很高的响应，他们的这些特征可以传递到参考帧中去，参考帧中的特征得到加强，检测就会成功。
就有两个模块就是

Flow-guided warping.

给定一帧{IiIi}和其相邻帧{IjIj}光流场Mi−>jMi−>j=F(IiIi,IjIj)可以通过光流网络F参加FlowNet[8]估计。
相邻帧的feature maps被warp到当前帧，根据光流warping function定义为：
fj−>ifj−>i=W(fjfj,Mi−>jMi−>j)=W(fjfj,Mi−>jMi−>j)
其中W是一个双线性的warping function，用于feature maps上所有位置的每个channel，fj−>ifj−>i表示从jj warp到ii帧的feature map。

Feature aggregation.

做完feature warping以后，当前帧从相邻帧累积feature map。这些feature map提供了物体实例的不同信息，例如光照、视角、姿态、非刚体变形等。聚合特征是，我们在不同空间位置使用不同的权重，并且让所有特征通道共享此空间权重，这一2D权重map定义为Wj−>iWj−>i。则聚合后的特征为

其中kk表示相邻帧的数量，默认kk=10。上式和attention模型的公式很像，不用的权重用于memory buffer中的不同特征。
聚合后的特征最后被送到检测子网络中得到最终的结果：yiyi=Ndet()。
在这里插入图片描述

Adaptive weight.
权重用于表示所有buffer frames[Ii−kIi−k,…,Ii+kIi+k]对于IiIi在每个空间位置上的重要程度。
特别地，在位置PP,如果warped features fj−>i§fj−>i§和fi§fi§很相近，则它会被赋予一个大的权重，反之则相反这里我们使用余弦相近矩阵来衡量warped features和从当前帧得到的features之间的相似度。另外，我们不直接使用卷积特征Nfeat(II),而是使用一个小的全卷积网络，将特征f(i)f(i)和fj−>ifj−>i映射到新的embedding进行相似度度量。
我们估计权重为：

其中fefe=表示相似度度量的embedding features。权重Wj−>iWj−>i对于所有空间位置PP，在相似帧做了归一化，=1。估计权重的过程可以看做是利用embedding features计算余弦相似度的过程。
！
3，training and inference
使用一个滑动的特征缓冲区处理连续的每一帧，，用k+1帧初始化缓冲区，对视频帧循环进行目标检测，跟新缓冲区。i帧是参考帧，相邻帧的特征根据他进行映射，这些映射的特征被赋予权重
train：结构是可微的，warp是通过双线性插值得到的
feature network：
resnet inception-resnet。Aligned-Inception-ResNet（resolve feature misalignment issue）去掉平均池化层与全连接层，最后一个32-16，在最后一个block的开始(conv5)，stride从2变为1。为了保持感受野的大小。最后一个block的卷积层的dilation(kernel size>1)设为2。最后随机初始化33卷积用在最后将特征维度降为1024。
Embedding network：有三层，11512 conv,33512 conv,112048 conv,随机初始化。
Detection network.我们使用R-FCN，并且按照[49]的设计，在1024-d feature maps的后面。RPN sub-network和R-FCN sub-network分别接前512和后512维，RPN使用9个anchor(3 scale, 3 aspect)。每张图产生300个proposals，R-FCN中的position-sensitive score maps是77group
！
【论文笔记】视频物体检测(VID)系列 FGFA：Flow-Guided Feature Aggregation for Video Object Detection - elaine_bao的专栏 - CSDN博客 https://blog.csdn.net/elaine_bao/article/details/78449724?readlog
问题：
1

沙雅云

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Flow -Guided feature Aggregation for video object detection

这篇文章是对之前的deep-featureflow的一个延续，利用了前后帧的信息来加强当前帧的特征，从而得到较好的识别度，但是速度上回很慢。基于流引导的特征聚合，端到端的学习框架，利用时间一致性，沿着运动轨迹聚合附近的帧，来提高每一帧的特征。这种方法对于strong single-frame baselines in ImageNet VID 有很大的改进，并且对于快速移动的物体效果显著。1....
复制链接

扫一扫