无惧遮挡！无惧不准确深度值！CAMOT：多目标跟踪最新SOTA！

最新推荐文章于 2024-10-08 22:20:31 发布

计算机视觉工坊

最新推荐文章于 2024-10-08 22:20:31 发布

阅读量740

点赞数 10

文章标签：目标跟踪人工智能计算机视觉算法机器学习开源

本文链接：https://blog.csdn.net/weixin_46788581/article/details/142729085

版权

0. 论文信息

标题：CAMOT: Camera Angle-aware Multi-Object Tracking

作者：Felix Limanta, Kuniaki Uto, Koichi Shinoda

机构：Tokyo Institute of Technology

原文链接：https://arxiv.org/abs/2409.17533

1. 摘要

本文提出了CAMOT，一种简单的摄像机角度估计器，用于多目标跟踪，以解决两个问题:1)遮挡和2)深度方向上不准确的距离估计。假设每个视频帧中有多个对象位于一个平面上，CAMOT使用对象检测来估计摄像机角度。此外，它给出了每个对象的深度，使伪3D运动。我们通过将其添加到MOT17和MOT20数据集上的各种2D MOT方法来评估其性能，并确认其有效性。将CAMOT应用于ByteTrack，我们在MOT17中获得了63.8%的HOTA、80.6%的MOTA和78.5%的IDF1，这是最先进的结果。其计算成本明显低于现有的基于深度学习的深度估计器进行跟踪。

2. 引言

多目标跟踪（MOT）是一项在视频中跨空间和时间检测并跟踪目标物体，同时保持身份一致性的任务。它被应用于多种场景，如自动驾驶和视频监控。其标准范式包含两个阶段：1）目标检测，即检测每一帧中的单个目标；2）关联，即将检测结果随时间关联起来，为每个目标形成一条轨迹。本文重点关注MOT在监控中的应用。

在真实场景中，MOT面临诸多挑战。一个显著的问题是目标物体常被其他物体遮挡，导致检测失败。另一个问题是当两个物体在深度方向上对齐时，无法精确估计它们之间的距离，这可能导致不同帧间目标关联错误。

如果我们知道每个物体的深度，就可以解决这两个问题。为此，Khurana等人将基于深度学习的深度估计器嵌入到MOT框架中。虽然这在一定程度上解决了遮挡问题，但距离不精确的问题仍需解决。此外，深度估计器可能需要显著的计算成本。

本文提出CAMOT（Camera Angle-aware Multi-Object Tracking，相机角度感知多目标跟踪），一种用于MOT的简单相机角度估计器，以解决上述问题。假设每个视频帧中的多个物体位于同一平面上，CAMOT利用目标检测来估计相机角度。该方法提供了每个物体的深度信息，解决了遮挡问题，同时测量了深度方向上的距离，使不同帧间的目标关联更加准确。CAMOT计算效率高，可作为各种MOT方法的插件组件使用。

通过在MOT17和MOT20数据集上的各种2D MOT方法中添加CAMOT，我们评估了其性能，并证实了其有效性。例如，当应用于Byte-Track时，它在MOT17上取得了63.8%的HOTA、80.6%的MOTA和78.5%的IDF1的领先结果。在计算成本方面，在配备单个A100 GPU的机器上，CAMOT达到了24.92 FPS的速度，高于现有用于跟踪的基于深度学习的深度估计器的不足10 FPS的速度。

3. 效果展示

4. 主要贡献

本文的主要贡献如下：

我们提出了一种轻量级的相机角度估计器，该估计器利用目标检测位置。

我们利用相机角度和每个物体的深度信息，在2D MOT中关联不同帧间的目标。

我们通过将CAMOT添加到各种2D MOT方法中，对其进行了评估。

5. 方法

CAMOT理念的阐释。我们假设多个物体位于同一平面上，利用目标检测来估计相机角度。每个边界框的大小表示每个物体的深度，而边界框的分布则告诉我们相机的角度。在此，我们描述了估计相机仰角θ和物体三维坐标集P的方法。CAMOT通过为所有目标检测回归一个共同平面来同时估计角度和物体深度。目标检测除了告诉我们物体在图像上的位置外，它们的分布还告诉我们相机的角度。例如，从地面角度拍摄的图像中的物体会集中在一条水平线上，而角度较高的图像中的物体会分布得更均匀。

我们可以利用目标检测来估计物体的深度，进而估计相机的角度。我们的算法概述如下：

1、选择在当前帧t中使用的边界框。

2、当θt未达到最优，即迭代误差ε(t,u)大于阈值τε时，按以下步骤进行迭代u ← u + 1：
(a) 为当前迭代设置θ(t,u)值。
(b) 使用θ(t,u)估计三维物体点P(t,u)i。
(c) 从P(t,u)i回归一个具有法向量n(t,u)的平面，并计算平面角度θ(t,u)n。
(d) 评估此次迭代的角度估计过程误差ε(t,u)。

3、对θt进行角度平滑处理。

4、使用最优的θt值计算当前帧中所有物体的Pti。

然后，我们定义以下概念：对于每个物体i，角度αi定义为主轴与rit之间的角度，而角度γi定义为rit与rib之间的角度。在图3中，我们可以利用由物体和射线形成的三角形中的角度属性来计算从原点到物体的距离。

6. 实验结果

7. 总结 & 未来工作

本文介绍了一种用于多目标跟踪（MOT）的角度估计器——CAMOT。通过估计相机角度，跟踪器采用一种启发式方法，以适应物体相对于相机移动时所产生的透视畸变，从而调整跟踪行为。此外，计算出的物体深度还使伪3D MOT成为可能。将CAMOT应用于其他2D MOT跟踪器，在MOT17和MOT20数据集上的评估结果表明，CAMOT相较于现有方法性能有所提升，并取得了最新成果。与用于跟踪的基于深度学习的单目深度估计器相比，CAMOT在计算效率上也更高。

目前，CAMOT在估计相机角度时仅使用单帧作为输入。我们未来的工作将侧重于使用多帧来估计相机角度，以提高稳定性。我们还对将CAMOT应用于一般的深度估计问题感兴趣，在这种问题中，我们可以安全地假设房间几何形状和物体大小是固定的。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~