单目标跟踪算法调研(2019)

ATOM: Accurate Tracking by Overlap Maximization(2019)
背景:该算法认为人们关注的焦点是开发强大的分类器,因此目标状态的准确估计问题在很大程度上被忽视了。事实上,大多数跟踪器采用简单的多尺度搜索来估计目标边界框,ATOM认为这种方法从根本上来说是有限的。
工作:提出了一种新的跟踪框架,该框架由专门的目标估计模块和分类模块组成。通过广泛的离线学习,将高级知识融入到目标估计中,对目标估计模块的训练主要用于计算目标真实框和预测框之间的重叠,通过细致地集成目标特定信息,该方法获得了前所未见的边界框精度。引入了一个在线训练的分类模块,以保证在有干扰的情况下具有高分辨能力。
结果:运行速度超过30FPS。在30FPS版本的NFS数据集上的重叠精确率为59.0%;在TrackingNet的SR和PR上分别为70.3%和64.8%。
应用:提供了准确的目标估计,提高IoU精度。
Deep Meta Learning for Real-Time Target-Aware Visual Tracking(MLT,2019)
背景:传统的基于深度卷积特征的判别式视觉跟踪算法需要不断地重新训练分类器或相关滤波器,这涉及到求解复杂的优化任务,以适应目标对象的外观变化。需要缓解这一复杂过程。
工作:提出了一种基于孪生匹配网络和元学习网络的实时运行的在线视觉跟踪框架。该算法结合并利用了元学习网络,在元学习网络中通过添加目标感知特征空间来为匹配网络提供目标对象的新外观信息。特定目标的特征空间参数是从元学习网络的单个前向传递通道即时提供的。
结果:实验结果表明,该算法不需要在跟踪过程中不断地求解复杂优化任务,在保持与其他跟踪算法相当性能的同时,具有较高的实时性。实时运行速度能达到48FPS。
应用:实时跟踪;在应对遮挡、姿态变换、背景杂乱、快速运动、尺度变换等挑战时,也能表现出较好性能。
Deeper and Wider Siamese Networks for Real-Time Visual Tracking(SiamDW,2019)
背景:孪生网络在均衡精度和速度方面表现较好,但使用的主干网络相对较浅(如AlexNet),没有充分利用现代深度神经网络的能力。
工作:研究了如何利用更深更广的卷积神经网络来增强跟踪的鲁棒性和准确性。观察到,直接使用现有的功能强大的深度架构(如ResNet、Inception)替换浅层主干并不会带来改进。主要原因在于(1)神经元感受野的大幅增加导致了特征辨别力和定位精度的降低(2)卷积网络中的填充导致了学习过程中的位置偏差。为了解决这些问题,提出了新的残差模块来消除填充的负面影响,并进一步使用这些模块来设计新的架构,这些模块具有可控的感受野大小和网络步长。
结果:设计的轻量级结构应用SiamFC和SiamRPN,SiamFC+速度达到70FPS,SiamRPN+速度达到150FPS。使用CIResNet-16作为主干,SiamFC+和SiamRPN+的速度分别达到75FPS和160FPS;使用CIResInception-22作为主干的性能次优;使用CIResNet-22作为主干的性能最优。这是第一个系统地研究如何在视觉跟踪中设计鲁棒主干网络的工作。
应用:快速跟踪。
Fast Online Object Tracking and Segmentation: A Unifying Approach(SiamMASK,2019)
背景:将分割应用于目标跟踪,实现更快的在线跟踪。
工作:展示了如何用一种简单的方法来实时地执行视觉目标跟踪和半监督视频目标分割。通过增加一个二进制分割任务损失,来改进全卷积孪生结构目标跟踪方法的离线训练过程。训练时,SiamMASK只依赖单个边界框的初始化并在线运行,以55FPS的速度产生与类别无关的目标分割掩码和旋转的边界框。
结果:在VOT2018数据集上,EAO为0.380,Accuracy为0.609,Robustness为0.276,速度为55FPS。
应用:实时跟踪。
Learning Discriminative Model Prediction for Tracking(DiMP,2019)
背景:为了实现端到端训练,目标模型的在线学习需要嵌入到跟踪架构本身。由于强加的挑战,主流的孪生结构只预测一个目标特征模板,而忽略了推理过程中的背景外观信息。因此,预测模型只具有有限的目标-背景辨别能力。
工作:开发了一种端到端的跟踪架构,该架构能够充分利用目标和背景外观信息来实现目标模型预测。该结构从辨别性学习损失中派生出来,通过设计一个专门的优化过程,能够在较少迭代情况下预测一个强大模型。
结果:在VOT2018数据集上,EAO为0.440,Accuracy为0.597,Robustness为0.153;在OTB100数据集上,AUC为68.4%。运行速度超过40FPS。
应用:增强目标和背景的辨别能力。
Physical Adversarial Textures That Fool Visual Object Tracking(PAT,2019)
背景:当一些纹理在物理世界中显示为海报时,会导致视觉目标跟踪系统变得混乱。
工作:提出了一种创建观察不明显的纹理的方法,当一个目标在这样的海报前面移动时,其对抗性纹理使得跟踪器能够锁定它。这种对抗性攻击评估了几种用于愚弄很少针对目标的回归模型的优化策略:non-targeted、targeted、a newly-coined family of guided adversarial losses。当使用EOT算法生成在不同条件下成像的愚弄跟踪模型的物理对手时,比较了不同场景变量的影响,以找到具有高对抗强度和收敛速度的实际攻击设置。进一步证明了,对于相机和机器而言,使用模拟场景优化的纹理可能会迷惑真实世界的跟踪系统。
Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking(C-RPN,2019)
背景:最近,区域建议网络(RPN)与孪生网络进行了结合以用于跟踪,并显示出良好的性能和高效率。然而先前提出的一阶段的SiamRPN跟踪器在存在相似干扰物和大尺度变化时会发生退化。
工作:提出了一种多阶段跟踪框架C-RPN,该框架由从深层到浅层级联的一系列RPN组成。与已有的解决方案相比,C-RPN具有以下几个优点,(1)每个RPN都是使用上一级RPN的输出进行训练的。这样的过程刺激了难例负采样,从而产生了更平衡的训练样本;(2)对于每个RPN,通过一种新的特征转移块(FTB)充分利用多层特征,进一步提高了C-RPN在高层语义和低层空间信息中的辨别力。(3)通过多步回归,C-RPN在前一阶段通过调整锚框来逐步细化目标在每个RPN中的位置和形状,从而使定位更加准确。C-RPN使用多任务损失函数进行端到端训练。
结果:在OTB100数据集上,SR为0.663;在TrackingNet数据集上,PRE为0.619,NPRE为0.746,SUC为0.669。在LaSOT数据集上,一阶段、二阶段、三阶段的速度分别达到48FPS、37FPS、23FPS。
应用:性能提升。
SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks(2019)
背景:基于孪生网络的跟踪器将跟踪表示为目标模板和搜索区域之间的卷积特征互相关。然而,孪生跟踪器与最先进的算法相比,仍存在精度差距,而且它们无法利用来自深度网络的特征(如ResNet50)。
工作:证明了无法利用深度网络特征的核心原因是缺乏严格的平移不变性。为了打破这一限制,提出了一种简单且有效的空间感知采样策略,成功训练了一个ResNet驱动的孪生跟踪器,并获得了显著的性能提升。此外,还提出了一种新的模型架构来进行分层和深度聚集,不仅进一步提高了精度,而且缩小了模型规模。
结果:在OTB100数据集上,SR为0.696,PR为0.914;在VOT2018数据集上,EAO为0.414,Accuracy为0.600,Robustness为0.234,AO为0.498。
Target-Aware Deep Tracking(TADT,2019)
背景:现有的深度跟踪器主要使用经过一般目标识别任务预训练的卷积神经网络来表示。尽管许多视觉任务都取得了成功,但使用预先训练好的深度特征进行视觉跟踪的贡献并不像对目标识别那样显著。关键问题是,在视觉跟踪中,感兴趣目标可以是具有任意形状的任意对象类。因此,预先训练的深度特征在对这些任意形状的目标进行建模以将它们与背景区分开来时效率较低。
工作:提出了一种新的学习目标感知特征的方案,该方案比预先训练的深度特征能够更好地识别经历了显著外观变化的目标。为此,提出了回归损失和排序损失来指导目标活跃和尺度敏感特征的生成。根据反向传播的梯度来识别每个卷积滤波的重要性,并基于活跃度来选择目标感知特征以表示目标。目标感知特征与孪生匹配网络集成,用于视觉跟踪。
结果:在OTB100数据集上,SR为0.660,PR为0.866。
应用:目标感知特征。
Unsupervised Deep Tracking(UDT,2019)
背景:本文认为一个鲁棒的跟踪器应该在前向和后向预测中都有效(即跟踪器可以在连续的帧中向前定位目标对象,并回溯到第一帧中的初始位置)。
工作:提出了一种无监督的视觉跟踪方法。与现有的使用大量标注数据进行监督学习的方法不同,该CNN模型是在大规模的未标记视频上以非监督的方式进行训练的。该框架建立在孪生相关滤波器网络上,网络使用未标注的原始视频进行训练。同时,提出了一种多帧验证方法和代价敏感损失来促进无监督学习。在不加入一些trick的情况下,所提出的无监督跟踪器达到了完全监督跟踪器的基线精度。此外,无监督框架显示出利用未标注或弱标注数据来进一步提高跟踪精度的潜力。
结果:在OTB100数据集上,SR为0.632,PR为0.831。
应用:无监督学习目标跟踪。
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值