paper : http://xxx.itp.ac.cn/pdf/2006.04078v1
code : https://github.com/ZekuiQin/SiamKPN
Abstract
视觉对象跟踪旨在根据给定的初始边界框来估计视频序列中任意目标的位置。通过利用离线特征学习,暹罗范式最近已成为高性能跟踪的领先框架。但是,当前现有的暹罗跟踪器要么严重依赖于基于锚的复杂检测网络,要么缺乏抵抗干扰者的能力。在本文中,我们提出了暹罗关键点预测网络(SiamKPN)来应对这些挑战。在使用Siamese主干进行特征嵌入时,SiamKPN受益于用于粗略到精细预测建模的级联热图策略。尤其是,该策略是通过沿= 3wcascade顺序缩小标签热图的覆盖范围以应用宽松到严格的中间监督来实施的。在推断过程中,我们发现预测的连续阶段热图将逐渐集中到目标,并减少到干扰因素。 SiamKPN在以实时速度运行的同时,在四个基准数据集(包括OTB-100,VOT2018,LaSOT和GOT-10k)上的视觉对象跟踪方面,与最新的跟踪器相比,表现出色。
1 Introduction
视觉对象跟踪是预测视频序列中任意目标位置的任务,前提是仅在第一帧中目标的边界框即可。像图像分类,目标检测和语义分割等其他计算机视觉任务一样,由于变形,视点,比例,遮挡,照明等导致的外观变化,目标跟踪也非常具有挑战性。
此外,在考虑背景杂波和类似干扰因素时,任务甚至更难解决。在文献中,视觉对象跟踪的经典方法是判别相关滤波器[5,18]。但是,在深度学习时代,这种方法很难利用端到端的深度特征学习来获得更好的性能。
为了解决这个问题,已经采用并发展了暹罗学习范式[6],以从离线深度特征学习中收获[45,2]。该范例学习了针对目标区域和搜索图像的共享特征嵌入网络,从而将视觉对象跟踪公式化为相似性学习问题。第一种实现是SINT [45],它通过采样补丁对来训练暹罗网络。尽管SINT可以有效地提高跟踪精度,但由于冗余且效率低下基于补丁的特征提取,因此SINT不能实时实现。作为一个简单的修改,SiamFC [2]利用全卷积运算学习暹罗网络,并通过两个特征图之间的有效互相关来解决匹配问题。沿着这方面的研究,CFNet [46]将相关滤波器作为可区分的层并入了暹罗框架。 RASNet [50]采用注意力机制来提高互相关响应的质量。在这些方法中,预测建模部分限于简单的体系结构,这在一定程度上导致性能受限。
图1. SiamRPN ++ [26],