一、现存问题
1. 外观剧烈变化
杂乱背景、非刚性变形、光照变化、长时间遮挡、阴影等,都可以使同一对象看起来不同,从而使对象跟踪成为困难
2. 相机重叠率
类别一:不同的摄像机对准同一场景,摄像机的视场FOV彼此完全重叠
类别二:由来自相机的图像组成,这些图像几乎不重叠或从不重叠
(左图表示 Overlapping multi-camera,右图表示 Non-overlapping multi-camera)
3. 不同运动方式
4. 摄像机视角变化
由于同一目标的外观、方向和尺度变化很大,因此很难在移动的摄像机上跟踪和关联同一目标的各种视图
5. 对象数与相机数未知
6. 数据关联
由于照明不均匀、长时间遮挡、摄像机之间缺乏时空约束等的可能性,数据关联变得更加复杂(与对象相关联的特征向量可以随着目标从室内位置移动到室外位置而显著地改变)
二、常见算法
1. 多视图检测算法
(1) 后期融合策略
优点: 硬件需求相对较低
(允许各个视图独立处理,并经投影到三维空间后的信息更为稀疏,比原始图像更容易管理)
A. 在各个独立视图中分别进行行人检测
B. 将这些检测结果映射到三维空间
(2) 前期融合策略
优点:
a. 相较传统后期融合方法,检测性能更高
b. 能通过端到端的方式进行训练优化
A. 将所有视图特征映射至共同的地平面或鸟瞰视角下
B. 在统一表示上进行联合检测
(3) 发展变化
A. 概率建模
主要依赖于平均场推断和条件随机场 CRF 等方法来整合来自多个视图的信息
但该类传统方法往往伴随着额外的计算负担或需要特定的设计
B. 深度学习方法
MVDet 提出一种基于卷积神经网络的端到端可训练框架
MVDeTr采用具有可变形注意力机制的鸟瞰视角 BEV 空间投影感知变换器
2. 多目标跟踪算法
目标跟踪和核心任务是将视频序列中前中后相邻帧中的同一物体(目标)进行关联
(1) 目标关联方法
A. 基于坐标
通过 IoU 来计算前后帧中目标之间的重叠程度,认为在相邻帧中位置接近的物体很可能是同一目标
缺点: 在场景复杂、目标聚集的情况下,效果会收到限制
B. 基于特征的目标关联
不仅依赖目标的坐标信息,还考虑目标的外观特征,通常使用 Re-ID 技术来准确判断两个物体是否为同一目标
(2) 目标关联方法
A. 卡尔曼滤波
卡尔曼滤波器 KF 算法(1960),利用随时间积累的、含有噪声和不确定性的观测数据,通过迭代优化过程实现了对未知系统状态的精确估计
a. 线性卡尔曼滤波器
只适用于线性系统,且要求观测模型呈现线性关系
b. 扩展卡尔曼滤波器 EKF
非线性滤波领域经典算法之一,基本思想在于将非线性系统的状态估计问题转化为线性近似处理
c. 无迹卡尔曼滤波器 UKF
嵌入基于无迹变换 UT 原理的线性卡尔曼滤波框架,抛弃了随机采样策略,利用有限点来有效模拟非线性系统的状态演变,克服传统卡尔曼滤波在非线性环境下的局限性
B. 粒子滤波 PF
基于蒙特卡罗方法的状态估计技术,主要用于非线性、非高斯系统的状态估计和跟踪问题
通过状态空间中随机抽取一组粒子来近似表示后验概率分布,并通过这些粒子的加权来计算状态的估计
3. 多相机多目标轨迹融合算法
大多数多目标多相机跟踪算法的核心假设是摄像机之间存在相互重叠的视场 FOV
利用该特性,研究者将目标建模为概率占用图 POM,并在跟踪过程中融合了目标的颜色和运动属性信息
【解法一】视为整数规划问题
利用 k 最短路径算法来求解最优路径
【解法二】视为图问题
超图结构或多元商品网络流模型被广泛用于描述不同视图间的关联关系,通过构建高级抽象模型,有效模拟目标在多个摄像机视图中的迁移过程
(1) 两阶段法
A. 独立于每个摄像头内部生成所有目标的局部轨迹(单摄像机多目标跟踪)
类别一:Online-based
仅使用当前可用的信息来生成多个目标的精确轨迹
类别二:Offline-based
依赖于来自过去和未来帧的信息
B. 在各摄像头间采用跨视图匹配技术确定属于同一目标的不同局部轨迹(跨视图数据关联技术)
对象重新识别算法 Re-ID
执行每个目标轨迹在网络中跨不同摄像机移动时的匹配
三、相机成像原理
1. 坐标系
在计算机视觉中,常涉及到四个坐标系
在图像处理中,通常在像素坐标系进行操作(像素依据行列有序排列的特性极大地简化并提升了图像处理的便捷性和销量)
世界坐标系 ----> 相机坐标系 – (模拟物体通过光学系统投射到二维图像平面的过程) --> 图像坐标 ----> 像素坐标系
(1) 像素坐标系
以图像左上角顶点为坐标原点,其x轴与图像水平方向平行,y轴则与图像的垂直边平行,坐标值直接对应图像中的像素位置
(2) 图像坐标系
以图像的中心为坐标原点
由于相机内部 CCD 很小,故图像坐标系往往以毫米为单位
(3) 相机坐标系
以相机光心(镜头中心)为坐标原点,其中x轴和y轴分别平行于图像坐标系的x轴和y轴,z轴指向相机前方(即相机光轴)
(4) 世界坐标系
一个可以依据实际应用需求任意指定的三维直角坐标系
四、数据集
- WILDTRACK
使用七台固定摄像机在公共开放区域捕获,在有利的天气条件下在瑞士苏黎世联邦理工学院主楼前收集超过40,000个边界框,总共超过300人 - MMPTRACK
用23个高度校准的重叠相机在各种具有挑战性的室内环境中获得的多目标跟踪数据的综合集合包括超过9.6小时的视频片段,每个相机视图超过50万个注释帧
五、评价指标
【Precision】
模型预测为正类的样本中,实际为正类的比例
TP(True Positives,真正例):被正确预测为正类的样本数量
FP(False Positives,假正例):被错误预测为正类的样本数量
【Recall】
在所有实际为正类的样本中,被正确预测为正类的比例
FN(False Negatives,假反例):被错误预测为负类的样本数量
【MOTA】
多目标跟踪准确度(Multi-Object Tracking Accuracy)
衡量多目标追踪整体精度的指标
综合了三种主要错误:未检测(Missed Targets)、误检(False Positives)、以及身份切换(ID Switches)
越接近1,表示追踪算法的准确性越高
【MOTP】
多目标跟踪精确度(Multi-Object Tracking Precision)
衡量追踪算法在空间上的精度,即测量预测位置与真实位置之间的平均距离误差
【IDF1】(ID F1-Score)
基于身份的一种F1-score,用来衡量追踪结果中正确的身份匹配情况
是准确率和召回率的调和平均值
关注的是追踪过程中身份的保持情况,值越高表示身份切换错误越少
【MT】
在整个追踪过程中大部分时间(通常定义为超过80%的时间)都被正确跟踪的目标数量或比例
【ML】
在整个追踪过程中大部分时间(通常定义为少于20%的时间)都未被正确跟踪的目标数量或比例