目标跟踪综述

论文地址:https://arxiv.org/pdf/1912.00535.pdf

摘要

研究当前基于深度学习的可视化跟踪方法、基准数据集和评价指标。从9个关键方面总结了基于深度学习方法的基本特征、主要动机和贡献:网络架构、网络开发、视觉跟踪的网络训练、网络目标、网络输出、相关滤波器开发、鸟瞰跟踪、长期跟踪、在线跟踪。

引言

视觉跟踪:由目标初始状态估计未知的视觉目标的轨迹。

应用

自动驾驶汽车[1],自主机器人[2],监控[3],增强现实[4],鸟瞰跟踪[5],运动[6],外科[7],生物学[8],海洋探索[9],等等。

视觉跟踪的挑战

其中可能包括任意类别的目标(如人、无人机、动物、车辆)和运动模型,各种成像特性(如静态/移动摄像机、平滑/快速移动,相机分辨率),以及环境条件的变化(例如,照明变化,背景杂乱,拥挤的场景)。

传统方法

传统方法采用各种视觉跟踪框架,如判别相关滤波器(DCF)[10] -[16],剪影跟踪[17],核跟踪[18],点跟踪[19]-用于目标的外观和运动建模。一般来说,传统的跟踪器对现实场景中的目标结构及其运动有不灵活的假设。这些跟踪器利用手工制作的特征(例如,定向梯度直方图(HOG)[20]和颜色名称(CN)[21]),所以它们不能解释语义目标信息和处理显著的外观变化。然而,一些基于检测的跟踪方法(例如,基于dcf的跟踪器)提高跟踪性能和高效计算[22]-[24]。例如,考虑到有限的机载计算能力和嵌入式硬件,鸟瞰跟踪器[25]-[27]广泛使用这些基于cpu的算法。

发展历程

 虽然卷积神经网络(CNNs)最初是占主导地位的网络,但目前正在研究一系列广泛的架构,如循环神经网络(RNNs)、自动编码器(AEs)、生成对抗网络(GANs),特别是孪生神经网络(SNNs)和自定义神经网络。最先进的基于DL的可视化跟踪器具有鲜明的特点,如利用各种架构、骨干网络、学习过程、训练数据集、网络目标、网络输出、利用深度特性的类型、CPU/GPU实现、编程语言和框架、速度等。

视觉目标跟踪器大致可分为计算机视觉中DL革命前后两大类。第一类主要是[41]-[44],其中包括基于经典外观和运动模型的传统跟踪器。这些跟踪器采用人工设计的目标建模功能,以减轻外观变化,并提供高效的计算复杂性。例如,由于使用高级gpu的限制,虽然这些跟踪器适合在飞行机器[25]-[27],[45],[46]上实现,但它们没有足够的鲁棒性来处理野外视频的挑战。通常,这些跟踪器试图集成多个特征,以构建一个互补的视觉提示集。但是,要对一个最优的权衡进行优化,同时又能在现实世界中保持效率,这是很棘手的。鉴于近年来基于dl的跟踪方法取得的显著进展,上述著作所评述的方法已经过时。

第二类包括基于dl的跟踪器,它们要么使用现成的深层特性,要么使用端到端网络。一种简单的方法是将预先训练的深度特性集成到传统框架中。然而,在考虑任务差异的情况下,这种跟踪器会导致不一致问题。但是,端到端的训练视觉跟踪器已经调查了现有的跟踪挑战。最近,[47]-[49]审查了有限的基于dl的可视化跟踪器。例如,[47],[48]将一些手工制作的深度方法分为相关过滤跟踪器和非相关过滤跟踪器。其次,基于架构和跟踪机制的进一步分类已经被应用。[50]的工作特别调查了一些基于SNN的跟踪器,基于它们的网络分支、层次和培训方面。然而,它不包括最先进的跟踪器和自定义网络。最后,工作[49]根据结构、功能和训练对基于dl的跟踪器进行分类。然后,根据观察结果进行评估,得出分类结论。从结构的角度,将跟踪器分为CNN、RNN等,根据其在视觉跟踪中的功能,将其分为特征提取网络(FEN)和端到端网络(EEN)。een还根据输出进行分类,包括对象得分、置信图和边界框(BB)。最后,从网络培训的角度将DL-based方法分为预训练和在线学习两大类。

### 多目标跟踪的技术综述目标跟踪是计算机视觉领域中的一个重要任务,其目的是从视频序列中准确地检测并持续跟踪多个移动对象。近年来,在深度学习技术快速发展的推动下,基于深度学习的多目标跟踪算法在提升准确性与鲁棒性上获得了显著进步[^1]。 #### 主要挑战 多目标跟踪面临的主要挑战包括但不限于: - **遮挡处理**:当不同物体相互遮挡时如何保持稳定的轨迹关联。 - **外观变化**:由于光照、姿态等因素引起的同一物体表观特征的变化。 - **尺度变换**:被跟踪的目标可能随时间发生大小上的改变。 - **背景杂波干扰**:复杂背景下区分前景目标的能力。 #### 流行的方法和技术 目前较为流行的一些方法可以分为两大类: ##### 基于检测器的方式 这类方法通常先利用强大的目标检测模型获取每一帧图像中的候选框位置信息,再通过某种形式的数据关联机制建立跨帧之间的联系。例如SORT (Simple Online and Realtime Tracking) 和 Deep SORT 就是在此基础上进行了优化改进,后者引入了更高级别的特征描述子来增强识别能力。 ##### 联合建模方式 另一种思路则是尝试构建端到端可训练框架,直接从未标注数据中同时学习检测和跟踪两个任务的知识表示。如FairMOT采用共享卷积神经网络结构分别提取空间及时序维度下的特征向量,并设计特定损失函数促进两者间有效融合。 #### 性能评估标准 对于多目标跟踪效果的好坏评判,常用的一个综合性评价指标称为多目标跟踪准确度(Multi-Object Tracking Accuracy, MOTA),它综合考虑漏检率、误报次数以及身份切换错误等多个因素的影响程度[^2]。 ```python import numpy as np from sklearn.metrics import accuracy_score def calculate_mota(gt_tracks, pred_tracks): """ Calculate Multi Object Tracking Accuracy. Parameters: gt_tracks : list of ground truth tracks pred_tracks : list of predicted tracks Returns: mota score as float value between 0 and 1 """ # Simplified example calculation; actual implementation would be more complex matches = [] for i in range(len(gt_tracks)): if gt_tracks[i]['id'] == pred_tracks[i]['id']: matches.append(1) else: matches.append(0) return accuracy_score(np.ones_like(matches), matches) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

嗯呢嗯呢

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值