论文理解:Mining Inter-Video Proposal Relations for Video Object Detection(ECCV2020)挖掘视频对象检测中的视频间建议关系

论文理解:Mining Inter-Video Proposal Relations for Video Object Detection(ECCV2020)挖掘视频对象检测中的视频间建议关系


论文链接:https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123660426.pdf
补充材料:https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123660426-supp.pdf


一、概要

近年来的研究表明,从不同帧的建议中提取上下文聚合信息可以明显提高视频目标检测的性能。然而,这些方法主要是利用单个视频的内建议关系,而忽略了不同视频之间的内建议关系,为识别混淆目标提供了重要的判别线索。为了解决这个问题,我们提出了一个新的视频间提案关系模块。该模块基于简洁的多级三联体选择方案,通过对不同视频之间硬方案的建模关系,学习有效的对象表示。通过将视频内部和视频之间的建议关系分层集成,设计了一个分层视频关系网络(HVR-Net)。该设计可以逐步利用内部和内部上下文来提高视频对象检测。我们研究了大规模视频对象检测基准的大量实验,即ImageNet VID。我们的HVR-Net以ResNet101的83.8 mAP和ResNeXt101的85.4 mAP 32x4d显示其优势。。

二、HVR-Net

1.概述

首先,我们设计了一个视频级的三联体选择模块video-level triplet selection module。对于一个目标视频,它可以灵活地选择两个confusing object视频,即同一类别中相似度最高的视频,不同类别中相似度最高的视频,根据其CNN特性。【首先阐述什么是confusing object,比如两个类之间的外观特别相似,该类物体就被称为confusing object。】就像下图中的subplot (a)中的cat,在单个视频序列中只能得到cat look like和how it moves的信息,但是无法获取cat在其他视频序列的联系与形变信息,就像在subplot (b) 中的target video (cat) 看起来就很相似dog而和cat不相似,所以这个时候就要借助其他视频序列的信息,比如support video(cat) (与target video (cat) 序列最不像的cat序列),support video (dog) (与target video (cat) 序列最像的其他类的序列)。
在这里插入图片描述

因此,在每一批训练中,我们得到了三个confusing object的视频,这可以指导我们的HVR-Net对视频之间的模型对象混淆。

其次,介绍了一个视频内提案关系模块intra-video proposal relation module。对于三联中的每个视频,我们将其采样的帧(例如,t−s, t和t + e)输入到RPN层和更快的RCNN的ROI层。这将为每一帧生成目标建议的特征向量。随后,我们总建议支持帧(如t−s、t + e)来提高提案在目标框架t。因此,每个提案特性在目标框架t将长期依赖在相应的视频,它可以解决intra-video问题如运动模糊、闭塞等。

第三,我们开发了一个proposal级的三联体选择模块 proposal-level triplet selection module。注意,视频内部增强的建议主要在每个单独的视频中包含对象语义,而忽略了视频之间对象的变化。为了对这种变化进行建模,我们根据intra-video-enhanced增强的特性,从视频三联体中选择硬建议三联体。最后,我们设计了一个视频间提案关系模块。对于每个提案三组,它可以从支持视频中聚合提案,以增强目标视频中的提案。在这种情况下,每个提案特性进一步利用视频之间 inter-video的依赖关系来解决视频之间的对象混淆。

intra-proposal relation within single video单个视频序列之间
inter-video proposal relation 各个视频序列时之间

2.框架

在这里插入图片描述

  1. video-level triplet selection module:
    找和target video最不相似的同类 support video和最相似的不同类 support video。首先从视频序列中选取K个类,每个类选取N个视频序列(每个视频序列包含T帧),所以一共有KN个视频序列,这里的K,N最后值都为3,在这KN个视频序列种随机选取一个序列作为target video,另外作为support videos,对于每个序列,从T帧中随机选取一帧作为target frame,其他帧作为support frames。为了选择和target video 最不相似的 support video(该序列的类和target含有的类一样),和target video 最相似的 support video(该序列的类和target含有的类不一样)。作者的做法也很简单粗暴,直接把support videos的所有帧直接送入backbone得到feature,每个video的features 为HWCT维度,然后直接在HW和C维度做全局池化操作,最后得到一个C维的vector,然后计算各个video得到的vector之间的cosine similarity,找到
    在这里插入图片描述

  2. intra-video proposal relation module
    在每个video内部用support video的proposal去enhance proposal of target frame。对Vtriple中的每个视频序列分别进行处理,挖掘单个video内部proposal之间的relation,进而增强target frame中proposal的feature能力,
    在这里插入图片描述

其中v属于Vtriplet, Xt,m是target frame中的proposal,Xi,j是support frame中的proposal,主要就是找到target frame中的proposal和support frame中的proposal的relation,然后用support frame中的proposal 去enhance target frame中的proposal feature。这样做目的是处理单个视频内的物体的运动模糊,遮挡问题。
3. proposal-level triplet selection module
为target video中的每个proposal在support video中寻找最它最不像的同类proposal和最像的不同类proposal。具体就是比较proposal之间的cosine similarity。
在这里插入图片描述

  1. inter-video proposal relation
    用第三步中得到的Ptriplet中的P+和P-去增强Ptarget,在这里插入图片描述
    最大进一步增加Ptarget和P+之间的联系,减少Ptarget和P-之间的联系,提出一个新的loss,
    在这里插入图片描述
    在这里插入图片描述

Ldetection就是传统的检测的分类和回归损失,在Supplementary Material中γ = 1,λ = 10。Lrelation就是用来实现进一步增加Ptarget和P+之间的联系,减少Ptarget和P-之间的联系。这里的d表示为euclidean distance。从而alleviate inter-video object confusion问题
整个结构如下:在这里插入图片描述

3.实验

最后文中做了很多消融实验来验证方法的有效性。

表一显示对intra-video和inter-video进行实验
表二显示对第一步的video-level Triplet selection和第三步的proposal-level Triplet selection选择方式进行实验,这里的simple代表随机选择video和直接选择所有的proposals。
在这里插入图片描述
表三对loss进行实验,可以看出Lrelation带来的提升很大,看来还是需要监督relation的学习。
表四对inter,intra module的个数进行实验
表五对对测试帧数目进行实验,看来以往视频目标检测算法常用的测试帧数为21不一定达到饱和,31帧可以进一步提升
在这里插入图片描述

最后就是和其他视频检测算法的对比:

在这里插入图片描述

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值