EarlyBird：基于早期融合的鸟瞰图目标跟踪算法

Sarrey

已于 2024-09-12 13:12:27 修改

阅读量692

点赞数 26

文章标签：目标跟踪人工智能计算机视觉 transformer cnn

于 2024-08-24 09:28:17 首次发布

本文链接：https://blog.csdn.net/weixin_73611281/article/details/141311123

版权

相关基础知识可参见以下博文：
https://blog.csdn.net/weixin_73611281/article/details/140867942?spm=1001.2014.3001.5501

本文介绍两篇多相机多目标追踪领域2024年同团队顶会论文，EarlyBird系列基于MVDet系列展开，致力于基于早期融合的鸟瞰图（BEV）算法研究。该系列论文主要专注于跟踪任务，但模型在检测任务中也取得有竞争力的结果

前序研究（MVDet、MVDeTr）讲解参见以下博文：
https://blog.csdn.net/weixin_73611281/article/details/140867561?spm=1001.2014.3001.5501

一、EarlyBird

EarlyBird: Early-Fusion for Multi-View Tracking in the Bird’s Eye View
会议：WACV 2024
论文：https://openaccess.thecvf.com/content/WACV2024W/RWS/html/Teepe_EarlyBird_Early-Fusion_for_Multi-View_Tracking_in_the_Birds_Eye_View_WACVW_2024_paper.html
代码：https://github.com/tteepe/EarlyBird

1. 背景

尽管单目多目标跟踪（MOT）取得了很大的进展，但遮挡问题仍然是该领域面临的最大挑战之一。遮挡会导致检测丢失和跟踪碎片化，从而限制检测和跟踪质量。从多个视图观察场景可以帮助克服这些遮挡，因为隐藏在一个相机中的对象可以在另一个相机中可见

最近的多视图检测和3D目标检测方法通过将所有视图投影到地平面并在鸟瞰视图（BEV）中执行检测而实现了巨大的性能飞跃

目前的多视角跟踪方法大多在每个视角下进行检测和跟踪，并使用基于图的方法来进行跨视角的行人关联。这种空间关联已经通过在BEV中检测每个行人一次来解决，只剩下时间关联的问题

(1) 多相机多目标跟踪

大多数 MTMC 跟踪器使用相机之间的重叠视场（FOV）将目标建模为概率占用图（POM），并在跟踪过程中将占用概率与颜色和运动属性结合。作为改进，部分研究将 POM 中的跟踪问题表示为整数规划问题，并使用 k - 最短路径（KSP）算法计算最优解

后期融合方法

每个视角独立处理之后，再进行融合

A. （检测）独立视角处理
在每个摄像机视角内生成所有目标的局部轨迹（即单视角目标检测）

B. （融合）在所有摄像机上匹配属于同一目标的局部轨迹
检测结果关联 — 对不同视角（即不同摄像机）的检测结果进行融合
跨时间步关联 — 对多个时间步内的检测结果进行轨迹跟踪（卡尔曼滤波等方法）
（即将不同时间步的目标检测信息生成连续的目标轨迹）

ps. “检测结果关联”与“跨时间步关联”顺序可以调换

【优点】需要较少的硬件（处理可以独立地执行，并且投影到3D的信息比全图像更稀疏）
【缺点】此跟踪方法中的任何级均遭受由前一级引入不准确性的影响

前期融合方法（本文采用）

先进行融合，再进行联合检测

A. （融合）将各个2D检测投影到3D地平面
将所有视图的表示投影到公共地平面或鸟瞰视图

B. （检测）执行行人检测
使用统一的模型进行目标检测、轨迹估计等任务

【优点】
a. 可以被端到端训练
b. 避免了各视角独立处理带来的信息丢失和误差传播问题，显著提高探测质量

(2) 单视图多目标跟踪

一步跟踪 One-Shot Tracking

将检测和跟踪结合在单个步骤中进行的单相机多目标跟踪
（节省计算时间，单性能相较两步跟踪更差）

A. 基于特征重识别

【FairMOT】
基于 CenterNet 方法，采用无锚设计
多目标跟踪任务 = 目标检测任务 + 重识别任务
FairMOT: On the Fairness of Detection and Re-Identification in Multiple Object Tracking
时间：2021
论文：https://arxiv.org/abs/2004.01888
代码：https://github.com/ifzhang/FairMOT
创新点：
(1) 很多工作先使用锚点检测对象，然后根据检测结果提取 re-ID 特征
然而，当检测结果不正确时，re-ID 特征是无用的
–> 该模型通过单一网络同时处理目标检测和重识别任务，显著提高了推理速度
(2) 检测和重识别需要不同的特性，并且优化目标存在冲突
–> 模型特别关注检测和重识别任务的公平性，确保两者都能得到有效学习

B. 基于运动线索

【D&T】
Detect to Track and Track to Detect
会议：ICCV 2017
论文：https://openaccess.thecvf.com/content_iccv_2017/html/Feichtenhofer_Detect_to_Track_ICCV_2017_paper.html
代码：http://github.com/feichtenhofer/detect-track
与静态图像相比，视频目标检测存在帧数量大、动作模糊（目标或相机移动导致）、图像质量低、目标不完整、姿势不常见等问题
–> 从相邻帧获取输入，预测边界框之间的帧偏移

【CenterNet】
CenterNet: Keypoint Triplets for Object Detection
会议：ICCV 2019
论文：https://openaccess.thecvf.com/content_ICCV_2019/html/Duan_CenterNet_Keypoint_Triplets_for_Object_Detection_ICCV_2019_paper.html
代码：https://github.com/Duankaiwen/CenterNet
将目标检测问题转换成中心点预测问题，一个目标由一个特征点确定
（具体来说，将输入的图片划分成若干个区域，每个区域存在一个特征点）
（网络的预测结果会判断这个特征是否属于对应物体，以及物体的种类和置信度，同时还会对特征点进行调整获得物体的中心坐标，并回归出物体的宽高）
ps. 通过三重输入（当前帧、前一帧、前一帧检测的热图）预测目标中心偏移

(3) 鸟瞰视图

在鸟瞰图空间中，透视变换所产生的失真一直是检测的一个挑战

作者在MVDet的基础上构建了该论文的方法，添加了一个基于ResNet-18的BEV解码器，并为解码的特征提供了更大的感受野，使模型能够将失真阴影的信息聚合到实际位置

2. 创新点

提出EarlyBird架构
一种在线、端到端、可训练的跟踪架构，可大幅提高跟踪的最新技术水平

在鸟瞰图中引入了早期融合跟踪，并采用了一种简单但强大的在线数据关联策略
为 BEV 特征引入了更强大的解码器架构，从而改善跟踪结果和检测
（基线模型MVDet中仅使用一个大卷积核）

4. 模型

在这里插入图片描述
输入图像被增强并馈送到编码器网络以产生图像特征，随后被投影到地平面并堆叠到 BEV 空间中。然后，BEV 空间在垂直维度上减小，特征通过解码器网络馈送

(1) 编码器

假设来自 S 个相机的同步 RGB 输入图像
输入：3 ×Hi ×Wi
输出：Cf ×Hf ×Wf（其中 Cf = 128，Hf = Hi / 4，Wf = Wi / 4）

使用 ResNet 或 Swin Transformer 网络对图像的特征进行编码，使用网络的三个块，最终将图像缩小4倍

【Swin Transformer】
会议：ICCV 2021
论文：https://arxiv.org/pdf/2103.14030.pdf
代码：https://github.com/microsoft/Swin-Transformer
Swin Transformer 和 Vision Transformer的区别：

两个连续的 Swin Transformer 块：

在第 l 层（左侧），采用规则的窗口划分方案，并在每个窗口内计算自关注
在下一层 l + 1（右侧）中，窗口分区被移动，从而产生新的窗口
整体网络架构：

(2) 投影

将所有 S 个摄像机的特征投影到预定尺寸 [Hg，Wg] 的地平面网格，具有 C 通道的堆叠特征图提供了大小为 S ×Cf ×Hg ×Wg 的 BEV 特征

(3) 聚合

目标：
将来自所有S个摄像机的特征联合收割机组合成单个特征（即减少BEV特征图的S维）

过程：
A. 沿着通道维度连接所有特征图，通过 S × Cf × Hg ×Wg →（S · Cf）× Hg ×Wg 产生高维BEV特征图
B. 通过两个2D卷积，进一步将该高维BEV特征减少到期望的通道大小 Cg = 128

(4) 解码器

由透视投影引入的失真导致行人特征从其在地平面上的实际位置向外扩展。其他方法认为这种失真识别为对检测精度和所有提出的复杂解决方案（如 Deformable Transformer 或 ROI 投影）有害

目标： 引入地平面的大接受场

过程：
A. 将 BEV 特征馈送到 ResNet-18 解码器中，每一层中 BEV 特征被下采样2
B. 使用金字塔网络架构将每层的输出上采样到先前较大输出的大小
C. 两个特征在通道维度上级联，并应用 2D 卷积

特征金字塔产生的解码输出与 Cg × Hg × Wg 的输入具有相同的形状，但每个网格位置的感受野更高

(5) 头head & 损失loss

检测架构遵循 CenterNet

【Focal Loss】
通过重塑标准交叉熵损失来解决极端的前景-背景类不平衡问题
用于目标检测领域，解决one-stage目标检测中正负样本极不平衡和难分类样本学习问题
Focal Loss for Dense Object Detection
会议：ICCV 2017
论文：https://openaccess.thecvf.com/content_iccv_2017/html/Lin_Focal_Loss_for_ICCV_2017_paper.html

【L1 Loss】
平均绝对误差（Mean Absolute Error, MAE）
优点： 无论输入值，都有稳定的梯度（不会导致梯度爆炸）
缺点： 中心点是折点，不能求导

【L2 Loss】
均方误差（Mean Square Error, MSE）
优点： 各点都连续光滑，方便求导，具有较为稳定的解
缺点： 稳健性一般（当函数的输入值距离真实值较远时，对应loss值在两侧且很大，则使用梯度下降法求解时梯度也很大，可能导致梯度爆炸）

重识别 Re-Identification

旨在生成可以区分单个行人的特征
理想情况下，不同行人之间的亲和力应该小于同一行人之间的亲和力

(7) 推断

在线数据关联

采用了由 MOTDT 描述的分层在线数据关联方法，但只跟踪从鸟瞰图中看到的行人中心

【MOTDT】
Real-time Multiple People Tracking with Deeply Learned Candidate Selection and Person Re-Identification
会议：ICME 2018
论文：http://arxiv.org/abs/1809.04427
代码：https://github.com/longcw/MOTDT
检测和跟踪可以在不同场景下信息互补：高质量检测可以阻止长期跟踪产生的轨迹偏移，轨迹预测又可以防范由于遮挡造成的噪声检测
通过评分函数对目标检测结果与当前追踪结果进行筛选，进而使用级联算法完成多目标追踪的方案，以解决检测不可靠问题

匹配策略主要包括以下两个阶段

【第一阶段】类似于 DeepSORT 方法

a. 使用卡尔曼滤波器预测轨迹点在下一帧中的位置
b. 计算预期中心和检测中心之间的马氏距离
c. 通过行人重识别特征计算重识别特征的余弦距离
d. 将马氏距离和余弦距离结合成一个综合距离度量
e. 匈牙利算法与匹配阈值

【DeepSORT】
一种在线多目标跟踪算法，在原始SORT算法基础上进行了改进

利用深度学习特征提取模块提取外观特征
使用卡尔曼滤波器对目标的运动状态进行预测（状态估计）
使用Mahalanobis距离结合外观特征进行数据关联，确定新的检测结果与已有轨迹的对应关系
使用匈牙利算法解决关联问题

【卡尔曼滤波器】
一种递归算法，在存在噪声的情况下（假设系统噪声和测量噪声呈高斯分布）对系统状态进行最佳估计，在时间序列数据处理中尤为常用，特别是用于跟踪问题
预测步骤： 利用系统动态模型，根据上一个时刻状态和控制输入预测当前时刻状态
更新步骤： 利用新观测到的数据，对预测状态进行修正

【匈牙利算法】
解决二分图匹配问题的经典算法

选择一个初始匹配
调整匹配和顶点标号，找到一个可改进路径
通过交错路径更新匹配，直到不能再找到可改进路径为止

【第二阶段】

a. 对未检测到的框和轨迹点，基于各自框的中心距离进行匹配
b. 持续更新轨迹点外观特征，以应对潜在的外观变化
（任何不匹配的中心都被归类为新的轨迹，不匹配的轨迹被保留10个时间步，以便于以后重新出现时识别）

5. 实验

(1) 评价指标

A. 目标检测

与评估预测边界框的单目视图检测系统不同，多视图检测系统评估投影的地平面占用图。与地面真值的比较不是用交集（IoU）计算的，而是用欧几里得距离计算的

报告了 MODA （作为主要性能指标，考虑了归一化的漏检和误报）、MODP、精确度和召回率

【精确度】
模型预测为正类的样本中，实际为正类的比例

TP（True Positives，真正例）：被正确预测为正类的样本数量
FP（False Positives，假正例）：被错误预测为正类的样本数量

【召回率】
在所有实际为正类的样本中，被正确预测为正类的比例

FN（False Negatives，假反例）：被错误预测为负类的样本数量

【MODA】（Multiple Object Detection Accuracy）
衡量多目标检测中检测精度的指标，反映了检测框与真实框的一致性

FN（False Negatives，假反例）：实际存在但未被检测出的目标数量
FP（False Positives，假正例）：不存在但被错误检测出的目标数量
值越接近1，表示模型的多目标检测精度越高

【MODP】（Multiple Object Detection Precision）
衡量多目标检测中检测框与真实框之间评估检测框与真实框之间的重叠程度的指标

TP（True Positives，真正例）：被正确检测出的目标数量
IoUi （Intersection over Union）：第ii个检测框与真实框的交并比

B. 目标追踪

报告了MOTA、MOTP、IDF1、MT 和 ML 多项度量指标

【MOTA】(Multi-Object Tracking Accuracy)
衡量多目标追踪整体精度的指标
综合了三种主要错误：未检测（Missed Targets）、误检（False Positives）、以及身份切换（ID Switches）

越接近1，表示追踪算法的准确性越高

【MOTP】(Multi-Object Tracking Precision)
衡量追踪算法在空间上的精度，即测量预测位置与真实位置之间的平均距离误差

【IDF1】(ID F1-Score)
基于身份的一种F1-score，用来衡量追踪结果中正确的身份匹配情况
是准确率和召回率的调和平均值

关注的是追踪过程中身份的保持情况，值越高表示身份切换错误越少

【MT】
在整个追踪过程中大部分时间（通常定义为超过80%的时间）都被正确跟踪的目标数量或比例

【ML】
在整个追踪过程中大部分时间（通常定义为少于20%的时间）都未被正确跟踪的目标数量或比例

(2) 实验结果

目标检测结果：
在这里插入图片描述

目标追踪结果：
在这里插入图片描述

消融实验结果：
在这里插入图片描述

(3) 可视化展示

在这里插入图片描述

二、EarlyBird 改进版

同作者团队，对EarlyBird了进行进一步完善

Lifting Multi-View Detection and Tracking to the Bird’s Eye View
会议：CVPR 2024
论文：https://openaccess.thecvf.com/content/CVPR2024W/3DMV/html/Teepe_Lifting_Multi-View_Detection_and_Tracking_to_the_Birds_Eye_View_CVPRW_2024_paper.html
代码：https://github.com/tteepe/TrackTacular

1. 背景

(1) 相机提升

一种将二维图像中的信息转换到三维空间的方法。通过处理和融合来自多个摄像头或其他传感器的图像数据，构建一个三维场景，从而更准确地感知环境和物体的位置

在这里插入图片描述

A. 基于单应性（Homography-based）的方法

一种用于图像几何变换的数学模型，通过假设地面是一个平面，使用单应性矩阵将图像中的特征点投影到地面上

【单应性】
用无镜头畸变的相机从不同位置拍摄同一平面物体图像，各图像之间存在单应性，可以用透视变换矩阵来表示图像之间的映射关系
ps. 仿射变换属于单应性变换的一种特殊情况，指在平面上对一些基本变换（如平移、旋转、缩放和剪切）的组合进行线性变换得到的

【缺点】
a. 对地面以上的物体精度较低，无法准确处理非平面场景
b. 对远离摄像头的物体，会产生类似阴影的伪影，导致误导性的感知结果

B. 基于深度（Depth-based）的方法

利用单目深度估计器来估计每个像素的深度，从而将图像中的像素点投影到三维空间中

【优点】不需要事先获取明确的深度信息，能够从单个图像中推断出深度
【缺点】性能高度依赖于深度估计的精确性

2. 创新点

将新的跟踪策略与三种现有提升方法相结合，并将其扩展到具有强重叠的视图
提出了一种新的学习关联方法，该方法结合了基于外观和基于运动的关联的优点
（相较EarlyBird，增加时间融合模块）
统一行人跟踪和车辆跟踪两个分支

3. 模型

在这里插入图片描述
模型整体架构：

编码——从RGB输入图像（S × 3 × Hi ×Wi）开始，图像被增强并馈送到编码器网络，以产生下采样图像特征（S × Cf × Hi / 4 × Wi / 4）

投影——使用不同的投影方法，将特征投影到公共BEV空间，得到（S × Cf × Hg × Wg）

聚合——BEV空间在垂直维度上减小，得到（Cf × Hg × Wg）

连接——随后将前一时间步特征连接到当前BEV特征，得到（2 × Cf × Hg × Wg）

解码——BEV特征最后通过解码器网络馈送，产生检测和追踪结果

(1) 提升方法（投影）

提供了图像视图和三维体素BEV视图之间的链接

基线方法MVDet采用透视变换的方法
此外，作者列举深度分段、双线性采样 (Simple-BEV) 、可变形注意力 (BEVFormer) 三种现代提升方法，与其形成比较

在这里插入图片描述

论文中介绍以下四种提升方法

A. 透视变换

最简单的提升方法，不用对高度信息建模

B. 深度分段

具体步骤如下：

a. 单目深度估计（从二维图像中恢复三维场景的深度信息）

深度分布是图像特征的一部分，通过深度预测模型从相机图像模拟点云
在这种方法中，可以将深度信息视为从二维图像到三维点云的参数化提升

b. 在图像特征通道中，沿着预测的深度维度对图像特征进行展开，即将二维图像信息在不同深度平面上进行投影，生成一个包含 (D × Cf × Hi / 4 × Wi / 4 ) 的点云特征

c. 体素化（将各个点云统一到三维空间中，并将相邻点云进行融合）

将每个相机视锥体中生成的点云映射到一个公共的体素空间中
考虑每个深度值的概率，通常会根据该深度的置信度来对点云特征进行加权处理

【体素 voxel】
体积 (volume)、像素 (pixel) 和元素 (element) 的组合词，相当于3D空间中的像素
体素化 Voxelization：将物体的几何形式表示转换成最接近该物体的体素表示形式，产生体数据集，其不仅包含模型的表面信息，而且能描述模型的内部属性

C. 双线性采样

Simple-BEV 的核心思想是简化深度投影的过程，不用显式地预测深度

具体步骤如下：
a. 每个三维体素会被投影到二维图像平面上（通过相机投影矩阵转换）
b. 检查投影点是否在图像内部（若投影点在图像外部，则不参与后续特征提取）
c. 使用双线性插值从图像中提取亚像素精度特征
d. 将特征值赋给这个三维体素

对于每个三维体素，它会从多个相机图像平面中进行特征采样，并对这些特征进行平均
通过这种方法，可以克服某些视角距离过远或被遮挡而导致缺失信息的问题

D. 可变形注意力

（类似于双线性采样，该论文中未采用）

BEVFormer 使用每个体素作为查询，并使用等式将3D参考点投影回2D图像视图
对每个查询的2D参考点和那些图像特征位置周围的特征进行采样
将特征聚合为加权和，作为空间交叉注意的输出

(2) 时间聚合

跟踪的核心是聚集时间信息
论文作者希望在特征级别就融合时序信息，而不是仅在检测阶段进行融合

在实际应用中，目标不会在相邻的时间步之间突然消失或大幅度改变。因此，将前一个时间步的特征引入当前时间步的特征处理中，可以增强检测的连贯性

通过学习不同时间步之间的特征变化，架构可以更好地理解目标的运动模式，从而避免出现目标丢失或不连续的检测结果

(3) 头 head

A. 检测模块

与 EarlyBird 方法相同

B. 跟踪模块

学习到上一帧中的位置的偏移
偏移幅度可能不同，因此选择 Smooth L1 Loss（相比L1 loss 改进了零点不平滑问题）

4.实验

(1) 数据集

在这里插入图片描述

A. Wildtrack

来自7个摄像机的400个同步帧，覆盖12米乘36米的区域。地平面被量化为480 × 1440网格，其中每个网格单元是2.5厘米的正方形。摄像头以1080 × 1920的分辨率捕获图像，并以每秒2帧（fps）的速度进行注释。平均而言，每帧有20个人，场景中的每个位置由3.74个摄像机覆盖

B. MultiviewX

16米乘25米，将地平面划分为640 × 1000网格。有6个视场重叠的摄像机，每个摄像机输出1080 × 1920分辨率的图像。平均而言，4.41个摄像头覆盖同一位置。在默认设置下，MultiviewX每帧有40人

C. Synthehicle

一个模拟CARLA智能城市交叉口摄像机的合成数据集，3~8个摄像机记录每个交叉路口，在交叉路口的中心具有大的重叠区域。该数据集对白天、黎明、夜晚和降雨条件进行建模，考虑汽车、卡车和摩托车三个类别

(2) State-of-the-Art

在RTX 3090 GPU上进行实验

在这里插入图片描述

(3) 消融实验

在这里插入图片描述

双线性采样方法相较深度分段方法显示出更好的效果

Sarrey

关注

26
点赞
踩
28

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫