文献翻译--《Siamese Regression Tracking With Reinforced Template Updating》--增强模板更新的孪生回归跟踪,IEEE-2021

本文提出了一种结合深度强化学习的Siamese回归跟踪器,解决了传统Siamese网络在目标外观变化时的跟踪难题。通过在线更新目标模板和使用定位模块子网络,跟踪器可以适应目标的旋转、形变等变化,提高了跟踪性能和鲁棒性。实验证明,所提方法在多个跟踪基准上表现出色,超越了现有先进跟踪器。
摘要由CSDN通过智能技术生成

摘要:由于Siamese网络的高效定位能力,故其在普遍应用在视觉跟踪中。该网络同时使用搜索图像块和目标模板图像块作为输入,其中目标模板通常来自初始帧。同时,Siamese跟踪器不在线更新网络参数,这可以提高实时效率。固定的目标模板和CNN参数使得Siamese跟踪器不能有效地捕获目标的外观变化。本文提出了一种基于强化学习的Siamese回归跟踪器的模板更新方法。我们采集了一系列的模板,并学习基于行动者Actor-评论家Critic框架来维护它们。在该框架中,通过深度强化学习训练的Actor网络并根据每一帧的跟踪结果有效地更新模板,除了目标模板外,我们还在线更新了Siamese回归跟踪器,以适应目标外观的变化。在标准的跟踪基准上的实验结果表明了模板和网络更新的有效性。所提出的跟踪器SiamRTU的表现优于最先进的方法。
关键词:Siamese回归跟踪;行动者-评论家网络;强化学习

Ⅰ.介绍
我们持续需要在视频序列中定位目标对象来用于理解其中的内容。视觉跟踪的应用包括人机交互、自动驾驶和增强现实技术。在视频序列中,目标外观的变化是现有方法需要克服的挑战。这是因为跟踪器的初始化只利用了第一帧中的内容,而这仅限于表示整个序列中的目标出现。此外,效率是现有跟踪器在保持实时计算速度的同时实现高精度的另一个瓶颈。
特征表示的发展有着先进的视觉跟踪方法。基于CNN的跟踪器[2],[3],[5]-[9]显著提高了跟踪精度,同时带来了巨大的计算负担。然而,也有对暹罗网络的深入调查,将视觉跟踪定义为一个目标验证过程。Siamese网络由一个模板分支和一个搜索分支组成。初始帧中的目标外观将保留在模板中,并与当前帧中的内容相匹配(即,搜索分支)。Siamese网络从准确性和效率的角度改进了基于检测的[6]、[10]-[12]和基于回归的[2]、[3]、[13]、[14]跟踪器。
尽管取得了成功,但Siamese跟踪器在有效捕获目标外观变化方面存在局限性。虽然CNN特征能够克服颜色和光照变化,但视频中的目标旋转和变形并不能清晰表示。在Siamese网络中,考虑到跟踪的效率,其并没有在线更新网络参数。当目标的外观在当前帧中发生显著变化时,目标验证不成功。来自模板分支的特性与来自搜索分支的特性有很大的不同。这种差异给Siamese跟踪器在区分背景干扰物的同时定位目标对象带来了匹配上的困难。如图1所示,当发生形变和平面外旋转时,来自现有的Siamese跟踪器的定位无法捕获目标。
在这项工作中,我们关注的是,在跟踪阶段,目标的外观发生显著变化时的视觉跟踪。为了改善这一具有挑战性的问题,我们提出了两个具有相同目标的贡献。当然,为目标保存多个模板可以适应目标的变化。然而,如何选择最合适的模板是一项值得研究的具有挑战性的任务。同时,由于目标的变化,如何准确、鲁棒地定位目标是另一个需要解决的主要问题。因此,我们提出了两个密切相关的贡献。
在这里插入图片描述
首先,我们建议在线更新目标模板,以缓解Siamese跟踪器的跟踪困难。我们自适应地选择目标模板作为模板分支的输入,而不是更新网络参数。目标模板的识别是基于强化学习的。在强化学习中,被训练的跟踪器用来实现一个模板更新策略,该策略可以最大化一个序列中的累积奖赏,这使得跟踪器比在两个连续帧上训练的跟踪器更具鲁棒性。同时,对用于进行模板更新的网络进行离线训练,无需对网络进行微调。通过利用以往的视频序列有效地在线更新目标模板,该Siamese网络可以有效地在保持实时计算成本的同时,还能捕获目标外观的变化。
其次,我们提出了一个准确、鲁棒地定位目标的定位模块子网络。一些Siamese跟踪器,如SiamFC[2],通过响应图来预测目标的中心,并通过在尺度空间中搜索来预测目标的尺度。这样,跟踪器就无法适应在跟踪过程中目标的高宽比发生变化的情况。此外,在尺度空间中进行搜索也是非常耗时的。一些跟踪器,如SiamRPN[15],利用RPN[16]子网络来回归目标的位置。但是,由于锚点的限制,这些跟踪器只能对具有一定长宽比的目标准确地回归目标。同时,设置大量的锚点参数进行跟踪也是一项具有挑战性的任务。本文提出了一种无锚子网络的定位模块。在离线学习过程中,训练所提出的位置模块不仅可以预测目标的中心,而且可以预测目标的宽度和高度。此外,我们还在线训练定位模块,以适应目标的外观变化。
我们在Siamese回归网络上部署了基于强化学习的模板更新。所提出的Siamese增强模板更新(SiamRTU)跟踪器有利于定位目标外观变化,如图1所示。在广泛的基准数据集上的实验结果表明了SiamRTU的有效性。本文的主要贡献总结如下:
● 我们提出了一种通过深度强化学习(DRL)在行动者-评论家框架下学习的目标图像块更新策略。与其他基于DRL的跟踪器不同,我们无需迭代过程就能定位目标,并有效地在每一帧中训练行动者-评论家网络。
● 我们提出了一个定位目标的定位模块子网络,并提出了一种针对CNN,不仅在离线训练阶段,而且在在线训练阶段的监督学习方法,这有助于我们的跟踪器对目标的外观变化具有更强的鲁棒性。
● 在三个流行的短期跟踪基准(OTB-100[1]、TC-128[17]和VOT2018[18])和一个大规模的长期跟踪基准(LaSOT[19])上的实验结果表明,所提出的跟踪器优于最先进的跟踪器。
本文的其余部分组织如下。在第二节中,首先回顾了与我们相关的其他一些工作。在第三节中,我们描述了我们的跟踪和训练算法。在第四节中,我们展示并讨论了对四个流行的基准测试的跟踪结果。第五节得出了结论。
Ⅱ.相关工作
在本节中,我们将回顾一些与我们相关的跟踪器。这些跟踪器分别是基于回归的CNN跟踪器、基于分类的CNN跟踪器和经过深度强化学习训练的跟踪器。
A.基于回归的CNN跟踪器
Held等[7]提出了一种可以通过深度回归CNN回归目标位置的跟踪器。它可以在GPU上以100帧每秒的速度运行。但是,由于没有在线更新过程,它无法跟踪移动得太快或被遮挡的目标。
Bertinetto等人[2]提出了一种基于全卷积孪生网络的跟踪器。通过应用相关层实现了一种有效的滑动窗口评估。基于[2],Valmadre等人[3]提出一种将相关滤波器学习器解释为深度神经网络的可微层。Wang等[20],[21]将自监督表示学习引入端到端孪生相关滤波器框架。同样基于[2],He等[14]提出了一种添加语义分支和注意机制的跟踪器来提高跟踪性能。与[2]类似,Chen等[13]提出了一种基于孪生CNN的跟踪器,该跟踪器利用浅层和深层卷积特征来预测目标在搜索图像块中的位置。这些跟踪器具有轻量级架构,可以实时运行。然而,它们不能适应目标的纵横比或外观发生显著变化的情况。此外,这些网络由于过拟合,其无法在线微调跟踪器。
Li等人[15]提出了由孪生子网络和区域提案子网络[16]组成的SiamRPN来进行高性能跟踪。在SiamRPN[15]的基础上,DasiamRPN[4]、SiamRPN++[22]和C-RPN[23]也被提出。为了实现更准确和稳健的跟踪性能,Zhang等[24]研究如何设计一个更深入、更广泛的CNN来进行跟踪。Wang等人[25]提出了SiameseMask,通过二进制分割任务提高了跟踪性能。Danelljan等人[26]提出了ATOM,重点研究了如何估计目标边界盒,提高了跟踪器的判别能力。Bhat等人[27]提出了DiMP,试图同时利用目标和背景外观进行跟踪。这些跟踪器中大多数只使用一个模板,并且没有学习任何模板更新策略。
与这些基于回归的CNN跟踪器不同,本文提出的SiamRTU可以通过基于DRL的策略来更新目标模板。此外,基于SiamRPN[15]的跟踪器[4]、[22]、[23]利用RPN子网对目标的位置进行回归。但是,由于锚点的限制,这些跟踪器可只可以一定的纵横比对目标准确地回归目标。同时

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值