【论文速递】ECCV2022-ByteTrack：通过关联每个检测框进行多目标跟踪

AROSYYY

已于 2023-01-17 19:58:06 修改

阅读量652

点赞数 1

文章标签：目标跟踪人工智能计算机视觉

于 2023-01-17 18:42:14 首次发布

本文链接：https://blog.csdn.net/weixin_47525542/article/details/128719497

版权

【论文原文】：ByteTrack: Multi-Object Tracking by Associating Every Detection Box

获取地址：https://arxiv.org/pdf/2110.06864.pdf

博主关键词：多目标跟踪，数据关联

推荐相关论文：

无

摘要

多目标跟踪(MOT)旨在估计视频中物体的边界框和身份。大部分方法是通过关联分数高于阈值的检测框来获得身份的。检测分数低的物体，例如被遮挡的物体，被简单地忽略，这带来了不可忽视的真正物体丢失和碎片化的轨迹。为了解决这些问题，我们提出了一种简单、有效和通用的关联方法，通过关联几乎每个检测框而不是只关联高分的检测框来进行跟踪。对于低分检测框，我们利用它们与tracklets的相似性来恢复真实对象并过滤掉背景检测。当应用于9个不同的最先进的跟踪器时，我们的方法在IDF1分数上实现了从1到10分的持续改进。为了提出MOT的state-of-theart性能，我们设计了一个简单而强大的跟踪器，命名为ByteTrack。我们首次在单 V100 GPU上以30 FPS运行速度在 MOT17 的测试集上实现了 80.3 MOTA、77.3 IDF1和 63.1 HOTA。ByteTrack 还在MOT20、HiEve和BDD100K跟踪基准上实现了最先进的性能。源代码、带有部署版本的预训练模型和应用于其他跟踪器的教程在 https://github.com/ifzhang/ByteTrack发布。
在这里插入图片描述

Figure 1. 不同跟踪器在MOT17测试集上的MOTA-IDF1-FPS比较。横轴为FPS，纵轴为MOTA，圆半径为IDF1。我们的ByteTrack在30FPS的基础上，在MOT17测试集上达到了80.3 MOTA和77.3 IDF1，超越了以往所有的跟踪器。详细情况见表4。

简介

基于检测的跟踪是目前最有效的多目标跟踪方法。但是由于视频中复杂的场景，检测器并不能完美的预测。目前最先进的MOT方法需要权衡检测框中的真阳性/假阳性来消除低置信度检测框。但是直接去除这些低分框真的合理吗?我们的回答是否定的，低置信度检测框有时指示对象的存在，例如被遮挡的物体。过滤掉这些对象会导致MOT出现不可逆转的错误，并带来不可忽略的缺失检测和碎片化轨迹。标意味着对于MOT造成不可逆误差、漏检和碎片轨迹。

图2(a)和(b)显示了这个问题。在第t1帧中，我们初始化了三个不同的tracklet，因为它们的分数都高于0.5。但是，在第t2帧和第t3帧发生遮挡时，红色tracklet对应的检测分数变低，即从0.8到0.4，然后从0.4到0.1。这些检测框被阈值机制消除，红色轨迹相应地消失。然而，如果我们将每个检测框都考虑在内，则会立即引入更多误报，例如，图2(a)的帧t3中最右边的框。据我们所知，MOT中很少有方法能够处理这种检测困境。
在这里插入图片描述

Figure 2. 关联每个检测框的方法示例。(a)显示所有检测框及其分数。(b)显示了通过先前方法获得的轨迹，这些方法关联了分数高于阈值的检测框，即0.5。相同的框颜色代表相同的身份。©显示了通过我们的方法获得的轨迹。虚线框表示使用卡尔曼滤波器预测的之前轨迹框。两个低分检测框基于大IoU与之前的tracklets正确匹配。

为了在匹配过程中充分利用从高分到低分的检测框，我们提出了一种简单有效的关联方法BYTE，将每个检测框命名为tracklet的一个基本单元，在计算机程序中作为字节，我们的跟踪方法对每个详细的检测框进行估值。我们首先根据运动相似性或外观相似性将高分检测框与轨迹匹配。同样，我们采用卡尔曼滤波器来预测轨迹在新帧中的位置。相似度可以通过预测框和检测框的IoU或Re-ID特征距离来计算。图2(b)正是第一次匹配后的结果。然后，我们使用相同的运动相似性在未匹配的轨迹(即红色框中的轨迹)和低分数检测框之间执行第二次匹配。图 2©显示了第二次匹配后的结果。检测分数低的被遮挡人与前一个轨迹正确匹配，并且背景(在图像的右侧)被移除。

作为目标检测与关联的综合课题，MOT的理想解决方案绝不是检测器和以下关联。此外，精心设计它们的连接区域也很重要。BYTE的创新在于检测和关联的交界处，低分检测框是提升两者的桥梁。受益于这种集成创新，当 BYTE 应用于9个不同的最先进的跟踪器时，包括基于Re-ID的跟踪器，基于运动的跟踪器，基于链的跟踪器和基于注意力的跟踪器，几乎所有指标都取得了显着改进，包括MOTA、IDF1分数和ID切换。例如，我们将CenterTrack的MOTA从66.1 增加到67.4，IDF1从64.2增加到74.0，并将MOT17的半验证集上的ID从528减少到144。

为了推动MOT的最新性能，我们提出了一个简单而强大的跟踪器，名为ByteTrack。我们采用最近的高性能检测器YOLOX来获取检测框并将它们与我们提出的BYTE相关联。在MOT挑战中，ByteTrack在MOT17和MOT20中均排名第一，在MOT17的V100 GPU上以30 FPS的运行速度实现了80.3 MOTA、77.3 IDF1和63.1 HOTA，在更拥挤的MOT20上实现了77.8 MOTA、75.2 IDF1和61.3 HOTA。ByteTrack还在HiEve和BDD100K跟踪基准上实现了最先进的性能。我们希望ByteTrack的效率和简单性能够使其在社交计算等实际应用中具有吸引力。