Deep Learning for Visual Tracking: A Comprehensive Survey
https://arxiv.org/pdf/1912.00535.pdf
摘要
视觉目标跟踪是计算机视觉中最抢手但最具挑战性的研究主题之一。 鉴于问题的不适性及其在广泛的实际场景中的普遍性,已经建立了许多大规模的基准数据集,并在此基础上开发出了可观的方法,并证明了近年来的巨大进步– 主要是基于最近基于深度学习(DL)的方法。 这项调查旨在系统地调查当前基于DL的视觉跟踪方法,基准数据集和评估指标。 它还广泛评估和分析了领先的视觉跟踪方法。 首先,从以下六个关键方面总结了基于DL的方法的基本特征,主要动机和贡献:网络体系结构,网络开发,视觉跟踪的网络训练,网络目标,网络输出以及相关过滤器优势的开发。 其次,比较了流行的视觉跟踪基准及其各自的属性,并总结了它们的评估指标。 第三,在一系列公认的OTB2013,OTB2015,VOT2018和LaSOT基准上,对基于DL的最新方法进行了全面检查。 最后,通过对这些最新方法进行定量和定性的批判性分析,研究了它们在各种常见情况下的利弊。 它可以作为从业人员温和的使用指南,以权衡何时何地在什么条件下选择哪种方法。 它还促进了对当前问题的讨论,并阐明了有前途的研究方向。
1 INTRODUCTION
通用视觉跟踪旨在在只有目标的初始状态(在视频帧中)可用时估计未知视觉目标的轨迹。 视觉跟踪是一个开放且有吸引力的研究领域(见图1),具有广泛的类别和应用。 包括自动驾驶汽车[1] – [4],自动驾驶机器人[5],[6],监视[7]-[10],增强现实[11]-[13],无人机(UAV)跟踪[ 14],体育[15],外科手术[16],生物学[17] – [19],海洋探险[20],仅举几例。 在复杂的现实世界场景中,视觉跟踪(即无模型跟踪,实时学习,单相机,2D信息)的不适定定义更具挑战性,其中可能包括任意类别的目标外观及其 运动模型(例如,人,无人机&#