Abstract
在线学习策略使视觉跟踪器可以通过学习特定领域的线索来更强大地抵抗各种失真。 但是,跟踪器采用此策略无法充分利用背景区域的区分上下文。 此外,由于每个时间步长都缺乏足够的数据,因此在线学习方法还可能使跟踪器易于过度拟合背景区域。 在本文中,我们提出了一种域自适应方法来增强语义背景上下文的贡献。 领域适应方法仅由现成的深度模型来支撑。 所提出的方法的优势在于其具有判别能力,可以应对严重的咬合和背景杂乱的挑战。 我们进一步引入了一种成本敏感型损失,以减轻非语义背景对语义候选者的支配性,从而解决了数据不平衡的问题。 实验结果表明,与最新的跟踪器相比,我们的跟踪器能够以实时速度获得竞争性结果。
1 引言
视觉对象跟踪旨在在指定初始边界框之后在图像序列上定位目标边界框。 由于深度卷积神经网络(CNN)的强大区分性表示,基于CNN的跟踪器已经取得了令人瞩目的进步。 但是,由于目标会随着时间的流逝出现各种无法预测的外观变化,因此,以实时速度实现高精度跟踪仍然是一个悬而未决的问题。
在线学习策略已被证明是一种有效的方法,可以使视觉跟踪器在跟踪过程中更强大地抵抗各种失真[1、2、3]。 但是,过多的在线更新策略可能会使跟踪器容易过度适应非目标环境,从而导致跟踪漂移。 此外,天真地将先前的补丁功能集成到长期和短期功能模板中会丢弃背景区域的区分性上下文。 为了缓解这些问题,在本文中,我们通过交叉熵损失函数利用正负候选对象的梯度来捕获上下文感知的CNN过滤器,以进行在线更新。 借助选定的卷积过滤器,我们的跟踪器可以在每个时间步中准确地将语义背景候选对象(也称为干扰因子)与肯定的候选对象区分开。 另外,以这种有效的观点减少参数的数量可以帮助减轻更新阶段的过度拟合问题。 与传统上已通过大规模对象跟踪数据集进行预训练的其他跟踪器[4、5、6、7]相比,我们仅利用现成的CNN模型作为特征提取,而无需进行离线预训练 程序。 由于从现成的CNN模型中选择了上下文感知的CNN过滤器,因此与最先进的视觉跟踪器相比,我们的跟踪器具有竞争性的结果(如图1所示)。 尽管事实上为对象分类任务预先训练的现成CNN模型是不可知的对于类内差异,建议的选择方法可以提取有助于类内差异的上下文感知CNN过滤器。
结果,现成的CNN模型的域适用于具有不同域的对象跟踪任务。 此外,由于现成的模型不需要预训练阶段,因此采用我们提出的策略,享受与手工设计的深层网络架构有关的进步可能更可行
尽管上述在线学习策略已将识别感兴趣的对象与前景的对象区分开来,但在我们的实时跟踪器中并没有彻底解决向拖拉机的漂移问题。 这主要源于数据不平衡问题,这是视觉跟踪器中根深蒂固的问题之一[8、9、10、11]。 数据不平衡问题使许多跟踪器的通用性差。 在视觉对象跟踪中,数据不平衡问题存在两个方面。
首先,与消极候选者相比,积极的候选者构成了相当大比例的训练数据,这对CNN模型的性能产生了不利的影响。 其次,非语义背景候选(即容易否定的候选)对干扰项的支配使得训练后的网络偏向于容易的非语义背景候选,从而降低了网络的性能。
受最近目标检测和跟踪的进展[12,13]的启发,提出了一个代价敏感的损失函数来平衡非语义背景候选和正/负候选在更新策略中的贡献。 也就是说,提出的损失函数设法惩罚了容易的非