Distractor-aware Siamese

Distractor-aware Siamese Networks for Visual Object Tracking

摘要。近年来,Siamese网络以其均衡的准确性和速度引起了视觉跟踪界的广泛关注。然而,大多数Siamese跟踪方法所使用的特征只能从非语义背景中分辨出前景。语义背景往往被认为是干扰因素,影响了Siamess跟踪器的鲁棒性。在本文中,我们专注于学习distractor-aware Siamese网络的准确性和长期跟踪。为此,本文首先分析了传统Siamese跟踪器的特征。我们观察到训练数据的不平衡分布 使得所学到的特征不那么具有辨别力。在离线训练阶段,引入一种有效的抽样策略来控制这种分布,并使模型关注语义干扰物。在推理过程中,设计了一个新的干扰感知模块进行增量学习,可以有效地将一般的嵌入转移到当前视频域。此外,我们通过引入一种简单而有效的局部到全局的搜索区域策略来扩展所提出的长期跟踪方法。在基准测试上的大量实验表明,我们的方法明显优于目前的水平,在VOT2016数据集上产生了9.6%的相对增益,在UAV20L数据集上产生了35.9%的相对增益。该跟踪器在短期基准测试中可执行160 FPS,在长期基准测试中可执行110 FPS。

关键词:视觉跟踪·干扰感知·Siamese网络

1 Introduction

  视觉目标跟踪是视觉分析、自动驾驶和位姿估计等计算机视觉领域的一个基本问题。跟踪的核心问题是如何在遮挡、视野外、变形、背景杂波等具有挑战性的场景中准确、高效地检测和定位目标。
  近年来,采用相似度比较跟踪策略的Siamese网络因其良好的性能而受到视觉跟踪社区的广泛关注。SINT 、GOTURN 、 SiamFC和RASNet学习先验的深层Siamese相似函数,并在运行时以固定的方式使用它。CFNet和DSiam[分别通过运行平均模板和快速转换学习模块在线更新跟踪模型。SiamRPN[16]在Siamese网络之后引入了一个区域提议网络,从而将跟踪制定为局部one-shot检测任务。
  虽然这些跟踪方法获得了平衡的准确性和速度,但有3个问题需要解决:首先,大多数Siamese跟踪方法使用的特征只能区分前景和非语义背景。语义背景往往被认为是干扰因素,当背景杂乱时,性能无法保证。其次,大多数Siamese跟踪器不能更新模型。虽然它们的简单性和固定模型的本质导致了高速,但这些方法失去了在线更新外观模型的能力,而在线更新外观模型对于跟踪场景中剧烈的外观变化往往是至关重要的。第三,最近的Siamese跟踪器采用局部搜索策略,不能处理完全遮挡和视野外的挑战。
  在本文中,我们探索学习干扰感知Siamese区域提议网络(DaSiamRPN),以实现精确和长期的跟踪。SiamFC使用一个加权损失函数来消除正负样本的类的不平衡。然而,由于训练过程仍然以易于分类的背景样本为主,因此效率低下。在本文中,我们发现训练数据中非语义背景和语义干扰的不平衡是表征学习的主要障碍。如图1所示,SiamFC上的响应图无法区分人物,即使是穿着白色衣服的运动员也能得到与目标人高度相似的结果。高质量的训练数据是端到端学习跟踪器成功的关键。我们得出结论,representation网络的质量很大程度上依赖于训练数据的分布。在训练过程中,除了从现有的大规模检测数据集中引入正样本对外,我们还明确地生成了不同的语义负样本对。为进一步提升辨别力,提出了一种有效的视觉跟踪数据增强策略。
  经过离线训练,representation网络可以很好地泛化到大多数类别的目标,使跟踪一般目标成为可能。在推理过程中,经典的Siamese跟踪器只使用最近邻搜索来匹配正模板,当目标经历显著的外观变化和背景杂乱时,可能会表现得很差。特别是,背景中出现的相似外观物体(干扰物)会使跟踪任务变得更加艰巨。为了解决这个问题,周围的情境和时间信息可以提供关于目标的额外信息,并帮助最大限度地发挥识别能力。本文设计了一种新的干扰感知模块,该模块可以有效地将一般的嵌入转移到当前视频域,并在推理过程中逐步捕捉目标的外观变化。
  此外,最近的大多数跟踪器是针对目标对象总是存在的短期情景定制的。这些跟踪器只专注于几十秒的短序列,这很难满足从业者的需求。除了短期跟踪的挑战性情况外,严重的视野外和完全遮挡给长期跟踪带来了额外的挑战。由于传统的Siamese 跟踪器缺乏识别特征,采用局部搜索区域,无法应对这些挑战。得益于DaSiamRPN中学习到的干扰感知特征,我们通过引入一种简单而有效的局部到全局搜索区域策略,将所提出的方法扩展为长期跟踪。这显著提高了我们的跟踪器在视野外和完全遮挡挑战中的性能。
  我们验证了提出的DaSiamRPN框架在广泛的短期和长期跟踪基准上的有效性:VOT2016、VOT2017、OTB2015、UAV20L和UAV123。在短期VOT2016数据集上,与排名最高的ECO方法相比,DaSiamRPN实现了9.6%的预期平均重叠相对增益。在长期UAV20L数据集上,DaSiamRPN获得了61.7%的Area Under Curve,相对于目前性能最好的跟踪器,提高了35.9%。除了良好的性能,我们的跟踪器可以在远高于实时速度的情况下执行:在短期数据集上160 FPS,在长期数据集上110 FPS。所有的这些提升表明,所提出的方法在视觉跟踪方面建立了一个新的先进水平。

1.1 Contributions

本文的贡献可以概括为以下三个方面:
  1、详细分析了传统Siamese 跟踪器的特征。研究发现,非语义背景和语义干扰物在训练数据中的不平衡是学习的主要障碍。
  2、我们提出了一种新的干扰感知Siamese Region Proposal Networks (DaSiamRPN)框架,用于离线训练中学习干扰感知特征,并在在线跟踪推断过程中显式抑制干扰。
  3、通过引入一种简单而有效的局部到全局的搜索区域策略,我们扩展了DaSiamRPN来执行长期跟踪,这显著提高了我们的跟踪器在视野外和完全遮挡挑战中的性能。在短期和长期视觉跟踪基准测试的综合实验中,提出的DaSiamRPN框架获得了最先进的精度,同时执行速度远远超过实时速度。

2 Related Work

基于Siamese 网络的跟踪。Siamese 跟踪器采用相似度比较策略进行跟踪。这项开创性的工作是SINT,它使用一个运行时间固定但先验的深度连体相似度函数,来简单地搜索与初始帧中给出的示例最相似的候选对象。作为后续工作,Bertinetto等人提出了一种完全卷积的Siamese网络(SiamFC)来估计两帧之间的特征区域相似性。RASNet[36]通过学习残余注意网络的注意机制,提出了这个相似性度量。与SiamFC和RASNet不同,GOTURN跟踪器采用深度回归网络预测连续帧间的运动。这三个跟踪器能够在GPU上分别执行86 FPS, 83FPS和100 FPS,因为没有在线微调。CFNet将相关滤波器解释为Siamese跟踪框架中的可微分层,从而实现端到端表征学习。但与SiamFC相比,性能提升有限。FlowTrack利用Siamese架构中的运动信息来提高特征表示和跟踪精度。值得注意的是,CFNet和FlowTrack可以有效地在线更新跟踪模型。最近,SiamRPN通过在Siamese网络之后引入区域提议网络,将跟踪作为局部one-shot检测任务,该网络是采用大规模图像对进行端到端离线训练。

跟踪特性。视觉特征在包括视觉跟踪在内的计算机视觉任务中起着重要的作用。Possegger et.al[26]提出了一个干扰感知模型术语来抑制视觉干扰区域,而其框架中使用的颜色直方图特征的鲁棒性不如深度特征。DLT是一种开创性的深度学习跟踪器,它使用了多层自动编码器网络。该特性是在80M微型图像数据集的一部分以无监督的方式预先训练的。Wang et al.[34]在一个视频库上学习了一个两层神经网络,其中对特征学习施加了时间慢度约束。DeepTrack从二进制样本中学习两层CNN分类器,不需要预先训练程序。UCT将特征学习和跟踪过程统一为一个框架,使学习到的特征与跟踪过程紧密耦合。

长期跟踪。传统的长期跟踪框架可分为两类:早期的方法将跟踪视为与几何模型匹配的局部关键点描述符,近期的方法将短期跟踪器与检测器相结合进行长期跟踪。后一类的开创性工作是TLD,它提出了一个无内存流群作为短期跟踪器和一个基于模板的检测器并行运行。Ma等人提出了KCF跟踪器和一个随机ferns分类器的组合,作为用于纠正跟踪器的检测器。类似地,MUSTer是一个长期跟踪框架,它将KCF跟踪器与同样用于检测遮挡的基于sift的检测器相结合。Fan和Ling的结合了DSST跟踪器和CNN检测器[31],验证并可能纠正短期跟踪器的建议。

图1:Siamese网络跟踪器响应热图可视化。(a)显示搜索图像。(b-e)显示了SiamFC, SiamRPN, SiamRPN+(用干扰物训练)和DaSiamRPN产生的热图。

3 Distractor-aware Siamese Networks

3.1 Features and Drawbacks in Traditional Siamese Networks

在详细讨论我们提出的框架之前,我们首先回顾传统Siamese网络跟踪的特征。Siamese追踪器的核心是度量学习。目标是学习一个嵌入空间,使不同对象之间的类间惯性最大,同一对象的类间惯性最小。导致Siamese跟踪器流行和成功的关键贡献是其平衡的准确性和速度。
  图1显示了SiamFC和SiamRPN的响应图。可以看出,对于目标而言,背景差异较大的对象也会获得高分,甚至一些无关的对象也会获得高分。在SiamFC中获得的表征通常服务于训练数据中类别的判别学习。在SiamFC和SiamRPN中,成对的训练数据来自同一视频的不同帧,在每个搜索区域中,非语义背景占据多数,而语义实体和干扰物占据较少。这种不平衡的分布使得训练模型很难学习instance-level 表征,而容易学习前景和背景之间的差异。
  在推理过程中,使用最近邻搜索搜索区域中最相似的对象,而忽略第一帧标记的背景信息。可以有效利用跟踪序列中的背景信息来提高识别能力,如图1e所示。
  为了消除这些问题,我们建议在离线训练过程中积极生成更多的语义对,并明确抑制在线跟踪中的干扰因素。

3.2 Distractor-aware Training

高质量的训练数据是视觉跟踪中端到端表征学习成功的关键。我们引入了一系列策略来改进学习特征的泛化,消除训练数据分布的不平衡。

 图2:(a)通过静态图像增强检测数据集生成的正样本对。(b)来自同一类别的负样本对。(c)来自不同类别的负样本对。

不同类别的正样本对可以促进泛化能力。原始的SiamFC是在ILSVRC视频检测数据集上训练的,该数据集仅包含约4000个逐帧注释的视频。最近,SiamRPN探索使用稀疏标记的Youtube-BB视频,它由20多万个视频组成,每30帧注释一次。在这两种方法中,训练数据的目标对来自同一视频中的不同帧。然而,这些视频检测数据集只包含少数类别(VID[28]为20个类别,Youtube-BB为30个类别),这不足以训练高质量和通用的Siamese跟踪特征。此外,SiamRPN中的bounding box回归分支在遇到新的类别时可能会得到较差的预测。由于标记视频费时且昂贵,本文通过引入大规模ImageNet Detection[28]和COCO Detection数据集,极大地扩展了正负对的类别。如图2(a)所示,通过增强技术(平移、调整大小、灰度等),检测数据集中的静态图像可以生成用于训练的图像对。正样本对的多样性可以提高跟踪器的识别能力和回归精度。

语义负样本对可以提高识别能力。我们将SiamFC[2]和SiamRPN[16]中的低区别表示归因于两种训练数据分布的不平衡。第一个不平衡是较少的语义负样本对。由于SiamFC和SiamRPN的训练数据中背景占据了大部分,大多数负样本是非语义的(不是真实的对象,只是背景),很容易分类。也就是说,SiamFC和SiamRPN了解了前景和背景之间的差异,语义对象之间的损失被大量容易忽略的负面信息所淹没。另一种不平衡来自于类内干扰物,在跟踪过程中通常表现为hard 负样本。本文在训练过程中加入了语义负样本对。所构造的负样本对由同一类别和不同类别的标记目标组成。来自不同类别的负样本对可以帮助跟踪器在视图和完全遮挡等挑战中避免漂移到任意对象,而来自相同类别的负对则使跟踪器专注于细粒度表示。负样本如图2(b)和图2©所示。

图3:我们提出的干扰感知Siamese区域提议网络(DaSiamRPN)的插图。DaSiamRPN充分利用目标和背景信息,可以抑制跟踪过程中干扰因素的影响。

为视觉跟踪定制有效的数据增强。为了充分发挥Siamese网络的潜力,我们为培训定制了几种数据增强策略。除了常见的平移、比例变化和光照变化外,我们观察到网络中的浅层可以很容易地模拟运动模式。我们明确地在数据增强中引入了运动模糊。

3.3 Distractor-aware Incremental Learning

最后一小节的训练策略可以显著提高离线训练过程中的辨别能力。然而,像图3a这样的两个具有相似属性的物体仍然很难区分。SiamFC和SiamRPN采用余弦窗抑制干扰。这样,当物体运动混乱时,性能就得不到保证。现有的基于Siamese网络的方法在遇到快速运动或背景杂波时性能较差。综上所述,潜在缺陷主要是由于一般表示域与特定目标域的不匹配造成的。在本节中,我们提出了一个干扰感知模块,以有效地将一般表征转移到视频域。
  Siamese跟踪器学习相似性度量函数f(z, x),以在嵌入空间ϕ中比较示例图像z和候选图像x:
其中,★ 表示两个特征图之间的相互关系,b·1表示在每个位置都相等的偏差。将选择示例中最相似的对象作为目标。
  为了充分利用标签信息,我们将目标上下文中的hard负样本(干扰物)集成到相似度度量中。在DaSiamRPN中,采用非最大抑制(NMS)方法对每帧中可能的干扰物di进行选择, 然后我们收集一套设置为D :={∀di∈D, f (z, di) > h∩di ≠zt},h是预定义的阈值,zt是帧t选定的目标,并且|D| = n。具体地说,首先我们在每一帧中得到17个∗17∗5 个proposals,然后我们使用NMS来减少冗余候选框。得分最高的proposal将被选为目标zt。对于其余的,分数大于阈值的proposal被选为干扰物。
  然后,我们引入了一个新的干扰感知目标函数,P是socre在top-k的proposal。最后选择的对象用q表示:

权重因子 a ^ \widehat{a} a 控制干扰物学习的影响,权重因子αi控制各个干扰物di的影响。值得注意的是,通过直接计算,计算复杂度和内存使用增加了n倍。由于式(1)中的互相关运算是一个线性算子,我们利用这个性质来加速干扰感知目标:

它使跟踪器能够以与SiamRPN相当的速度运行。这个联想法则也启发我们以学习率βt递增学习目标模板和干扰模板:
在这里插入图片描述
这种干扰感知跟踪器可以将现有的相似度度量(一般的)调整为新领域(特定的)的相似度度量。权重因子αi可以看作是具有稀疏正则化的对偶变量,样本和干扰因子可以看作是相关滤波器中的正样本和负样本。实际上,在我们的框架中建模了一个在线分类器。因此,所采用的分类器有望比仅使用一般相似度度量的分类器表现得更好。

3.4 DaSiamRPN for Long-term Tracking

在本节中,DaSiamRPN框架将用于长期跟踪。除了短期跟踪的挑战外,严重的视野外和完全遮挡也给长期跟踪带来了额外的挑战,如图4所示。在短期跟踪(SiamRPN)中,当目标再次出现时,搜索区域无法覆盖目标,从而无法跟踪后续帧。我们提出了一种简单而有效的切换短期跟踪阶段和跟踪失败的方法。在跟踪失败的情况下,设计了一种迭代的局部到全局的搜索策略来重新检测目标。

图4:视距挑战中视频人物7的跟踪结果。第一行:跟踪SiamRPN和DaSiamRPN的快照。第二行:检测分数并根据两种方法的重叠。这种重叠被定义为跟踪结果与地面真值之间的交并(IOU)。红色:gt_box。绿色:跟踪框。蓝色:搜索区域框。

  为了执行切换,我们需要确定跟踪失败的开始和结束。由于distractor-aware训练和推理能够获得高质量的检测分数,因此可以用它来表示跟踪结果的质量。图4显示了SiamRPN和DaSiamRPN的检测分数和跟踪重叠。SiamRPN的检测分数并不是指示性的,即使在视野外和完全遮挡的情况下,检测分数仍然很高。也就是说,SiamRPN倾向于在这些挑战中找到任意的对象,从而导致跟踪中跟踪框的漂移。在DaSiamRPN中,检测分数成功地表明了跟踪阶段的状态。
  在跟踪失败时,采用局部到全局的策略逐步增加搜索区域。具体来说,当跟踪失败时,搜索区域的大小以固定的步长迭代增长。如图4所示,局部到全局搜索区域覆盖目标,恢复正常跟踪。值得注意的是,我们的跟踪器采用了bounding box回归来检测目标,因此可以抛弃耗时的图像金字塔策略。在实验中,该算法在长期跟踪基准上的帧率达到110 FPS。

4 Experiments

实验在大量具有挑战性的跟踪数据集上进行,包括VOT2015 [13], VOT2016[14]和VOT2017[12],每个数据集60个视频,20个长视频的UAV20L[22],123个视频的UAV123[22]以及100个视频的OTB2015[38]。所有的跟踪结果都由官方实现提供,以确保公平的比较。

图5:VOT2016 (a)和VOT2017 (b)的预期平均重叠图。

4.1 Experimental Details

如SiamRPN[16]所述,使用ImageNet[28]预训练的修改AlexNet[15]。前三个卷积层的参数是固定的,只有最后两个卷积层的参数是微调的。共执行50个周期,日志空间学习率从10−2降低到10−4。我们从VID[28]和Youtube-BB[27]中提取图像对,选择间隔小于100的帧,并执行3.2节所述的裁剪过程。在ImageNet Detection[28]和COCO Detection[18]数据集中,通过增强静止图像生成图像对进行训练。为了在基准测试中处理灰度视频,训练时将25%的样本对转换为灰度图像。平移是在12个像素内随机执行的,随机调整大小的范围从0.85到1.15不等。
  在推理阶段,将式(2)中的干扰因子α^设为0.5,控制每个干扰物的权重因子αi设为1,将式(4)中的增量学习因子βt设为toPt−1 i=0(η 1−η)i,其中η = 0.01。在长期跟踪中,我们发现局部到全局的一步迭代就足够了。具体来说,在短期跟踪和跟踪失败的搜索区域和定义的跟踪失败的大小分别设置为255和767。进入和离开跟踪失败帧的阈值分别设置为0.8和0.95。我们的实验是使用PyTorch在带有Intel i7, 48G RAM, NVIDIA TITAN x的PC上实现的。

5 Conclusions

在本文中,我们提出了一个干扰感知Siamese框架,用于精确和长期跟踪。在离线训练中,提出了一种干扰感知特征学习方案,可以显著提高网络的识别能力。在推理过程中,设计了一种新的干扰感知模块,有效地将一般的嵌入转换到当前视频域。此外,我们通过引入一种简单而有效的局部到全局的搜索策略来扩展所提出的长期跟踪方法。本文提出的跟踪器在短期和长期视觉跟踪基准的综合实验中获得了最高的精度,但整体系统速度仍远不能达到实时性。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值