Siam-RCNN VIsual Tracking by Re-Detection

Abctract
根据目前的siam-cnn,孪生再检测的结构,释放了视觉目标跟踪的两阶段目标检测方法的全部力量。我们结合一种新的基于轨迹的动态规划算法,该算法利用第一帧模板和前帧预测的重新检测,来模拟被跟踪对象和潜在干扰对象的完整历史。这使得我们的方法能够做出更好的跟踪决策,以及在长时间遮挡后重新检测被跟踪的对象。最后,我们提出了一种新的硬实例挖掘策略来提高Siam R-CNN对相似外观对象的鲁棒性。Siam R-CNN在10个跟踪基准上取得了目前最好的性能,特别是对于长期跟踪的非常棒的效果。
www.vision.rwth-aachen.de/page/siamrcnn.
1、Introduction
R-CNN和Siame结构重新检测一个模板对象在图像的任何地方,通过确定一个区域推荐是相同的对象作为一个模板区域,并回归该对象的边界框。Siam R-CNN对物体大小和高宽比的变化是稳健的,因为建议是对齐到相同的大小,这是对比流行的基于相关操作的方法。
遮挡物
在线适应
都出线漂移的情况。
主要针对干扰物的问题,首先介绍了一种新的hard样本挖掘的方法,主要针对复杂干扰物对重新检测器进行训练。其次提出了一种动态算法TDPA,可同时跟踪潜在的对象,包含干扰物对象,通过重新检测前一帧中的候选对象并随着时间的推移将候选对象组成(短目标跟踪),根据所有目标对象和干扰对象轨迹的完整历史,使用动态规划来选择当前时间步长的最佳对象。
(本文基于的范式是利用重检测进行视频目标追踪。前期利用重检测进行视觉目标追踪的方法通常会受到相似干扰物的影响,其解决策略主要是利用先前的预测提供强位置先验信息和模型在线更新,但是这两种方法都避免不了模型的漂移问题。本文的工作主要有:(1)提出一种新的Siam R-CNN追踪器,利用孪生结构将Faster R-CNN应用于解决视觉目标追踪问题;(2)提出一种新的难例挖掘方法,能有效缓解干扰物对追踪结果的影响;(3)提出一种基于Tracklets的动态规划算法,能够在遮挡、目标消失等挑战中实现有效追踪。Siam R-CNN在六个短期追踪基准和四个长期追踪基准中均优于先前提出的方法。另外,利用现有的box-to-segmentation部件能够利用追踪框实现视频目标分割,在四个常见追踪数据集上比仅使用初始框标注进行分割的其他方法性能都好。
Siam R-CNN通过对所有潜在对象的运动和交互进行建模,将检测到的归为tracklet的相似度信息汇集到一起,能够有效地进行长期跟踪,同时抵抗跟踪器漂移,并且能够在消失后立即重新检测到目标。我们的TDPA只需要在每个时间步中进行一组新的重新检测,在线迭代更新跟踪历史。使得R-CNN可以以每秒4.7帧的速度运行。超过15FPS。
优于只利用第一帧的视频跟踪分割方法。
在这里插入图片描述

2、相关工作
VOT和OTB基准集评估。Siam R-CNN通过离线训练而不是在线学习分类器来学习预期的外观变化。对比了RPN检测器将深层模版特征与当前帧深度互相关操作重新检测模版,单步意味着直接分类锚框,和两段分类形成对比,再对第二阶段进行特征排列进行分类。
最近的跟踪方法改进了SiamRPN,使其可以感知干扰(DaSiamRPN[117]),增加了级联(C-RPN[25]),产生掩码(SiamMask[93]),使用更深的架构(SiamRPN+[113]和SiamRPN++[48]),并维护了一组不同的模板(THOR[77])。这些(以及更多[7,35,62])只在先前预测的一个小窗口内搜索该物体。DiMP[5]遵循这一范式,元学习则是一个健壮的目标和背景外观模型。
VOT的其他近期发展包括使用与在线学习相关的领域特定层[66],学习自适应空间滤波器正则化器[17],利用分类特定语义信息[84],使用连续[20]或分解[18]卷积,以及使用重叠预测网络[19]实现准确的边界盒预测。siam-rcnn采用两段结构,但是依赖于元学习的话精度低的多。长期跟踪主要通过在检测置信度较低时增加孪生网络跟踪器的搜索窗口来解决,这样可以有更好的表现。

3、method
使用孪生网络作为重新预测器,之前的检测器均采用单级检测器结构,对于单目标的检测任务,两级检测网络更好。其中第二阶段主要将感兴趣的ROI与模版区域进行比较,将感兴趣的区域特征连接起来,与参考图像进行对比,实现了对物体大小和长宽比变化的鲁棒性,这一点,使用简单的互相关操作是很难实现的。
图2显示了包括Tracklet动态规划算法(TDPA)的Siam R-CNN的概述。

在这里插入图片描述

3.1、Siam-rcnn
是一个孪生网络检测器基于两段的检测结构,使用COCO数据集预先训练更快的R-CNN结构检测80个对象类别,该网络是一个主干网络特征提取器和两个检测阶段组成的。首先是一个RPN其次是 一个特定类别的检测head,固定主干和rpn的权重,再使用本文的重新检测head代替了特定分类的检测
将第一帧中初始化边界框的RoI对齐深度特征拼接在一起,将合并后的特征进行1×1卷积,使特征通道减少一半。这些连接的特征然后输入到有两个输出类的再检测头;建议的区域要么是引用对象,要么不是。我们的重探测头使用三级级联[9],没有共享权重。该重检测头的结构与更快的R-CNN的检测头的结构相同,只是只使用了两个类,以及重检测头的输入特征是通过拼接的方式创建的。骨干和RPN被冻结,只有重新检测头(连接后)被训练用于跟踪,使用视频数据集的帧对。这里使用一帧中的一个对象作为参考,然后训练网络在另一帧中重新检测相同的对象。

3.2. Video Hard Example Mining
在常规的Faster R-CNN训练期间,从目标图像中RPN提议的区域中采样第二阶段的负训练样本。 但是,在许多图像中,只有很少的相关负样本。 为了最大程度地提高重检测头的判别能力,我们需要在严格的负样本上进行训练。 在以前的工作中已经探索了进行检测的难例挖掘(例如[26,79])。 但是,与寻找用于检测的通用难例挖掘方法不同,我们通过从其他视频中检索参考对象来构建困难训练样本。
Embedding Network
(这个Embedding Network网络其实就是一个特征提取网络&

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值