Siam R-CNN: Visual Tracking by Re-Detection(Siam R-CNN:通过重新检测进行视觉跟踪)
解读: https://www.bilibili.com/read/cv4690157
https://blog.csdn.net/qq_33012833/article/details/105802190?ops_request_misc=&request_id=&biz_id=102&utm_term=siamrcnn&utm_medium=distribute.pc_search_result.none-task-blog-2allsobaiduweb~default-2-105802190
摘要
我们提出了Siam R-CNN,这是一个Siam的再检测架构,它充分发挥了两阶段目标检测方法在视觉目标跟踪中的作用。我们将此与一种新的基于轨迹的动态规划算法相结合,该算法利用第一帧模板和前一帧预测的重新检测,来建模被跟踪对象和潜在干扰对象的完整历史。这使得我们的方法能够做出更好的跟踪决策,以及在长时间遮挡后重新检测被跟踪的对象。最后,我们提出了一种新的实例挖掘策略来提高Siam RCNN对相似目标的鲁棒性。提出的跟踪器在10个跟踪基准上达到了目前最好的性能,特别是在长期跟踪方面有很强的效果.
前言
我们使用再检测跟踪的范例来处理视觉目标跟踪。我们提出了一种功能强大的新型重新检测器,Siam R-CNN,它是对速度更快的R-CNN[74]的一种改进,采用了Siamese架构,它通过确定建议区域是否与模板区域相同来重新检测图像中的任何地方的模板对象,并对该对象的边界框进行回归。我们的两阶段检测体系结构是健壮的,可以抵抗对象和长宽比的变化,因为建议区域是一致的,这与流行的基于交叉相关关系的方法[49]形成了对比.
通过重新检测的跟踪有着悠久的历史,可以追溯到Avidan[1]和Grabner等人的开创性工作[28]。由于存在与模板对象非常相似的干扰对象,所以重新检测是一个挑战。在过去,干扰物的问题主要是通过来自先前预测的强空间先验[4,49,48]或在线适应[1,28,2,76,30,77,42]来解决的。这两种策略都容易漂移。
我们在Siam R-CNN的重新探测器设计之外,还做了两个新的贡献来解决干扰物的问题。首先,我们介绍了一种新的难例挖掘程序,它专门训练我们的再探测器来对付困难的干扰物。其次,我们提出了一种新的轨迹轨迹动态规划算法(TDPA),该算法通过重新检测前一帧中所有的目标候选框,并将这些候选框随时间分组到轨迹轨迹(短目标轨迹)中,同时跟踪所有潜在的目标,包括干扰目标。然后使用动态编程根据视频中所有目标对象和干扰对象tracklets的完整历史选择当前时间步长的最佳对象。Siam R-CNN通过明确地建模所有潜在对象的运动和相互作用,并将检测到的相似信息汇集到tracklets中,能够有效地进行长期跟踪,同时抵抗跟踪器漂移,能够在消失后立即重新检测到对象。我们的TDPA在每个时间步中只需要一小部分新的重新检测,就可以在线迭代地更新它的跟踪历史。这使得Siam R-CNN在拥有ResNet-101主干网的情况下,可以以每秒4.7帧(FPS)的速度运行,在拥有ResNet-50主干网的情况下,可以以每秒15帧以上的速度运行,输入建议图像更少,输入图像大小更小。
我们提供了大量数据集的评估结果。Siam R-CNN优于所有先前的方法六个短期跟踪基准,OTB2015 [99], TrackingNet [66], GOT-10k [