ByteTrack: Multi-Object Tracking by Associating Every Detection Box
摘要
多目标跟踪(MOT)的目的是估计视频中物体的bounding box和Id。
目前大多数的方法是通过关联得分高于阈值的检测框来获得Id。检测分数低的对象,例如被遮挡的物体,被简单地扔掉,这带来了不可忽略的真实物体丢失和碎片轨迹。
为了解决这一问题,文章提出了一种简单、有效和通用的关联方法(ByteTrack):通过关联每个检测框而不是只关联得分高的检测框进行跟踪。对于得分低的检测框,利用低分检测框和跟踪轨迹之间的相似性,恢复真正的物体并过滤掉背景。
当应用于9种不同的先进跟踪器时,该方法在IDF1评分上取得了一致的改善,提高了1-10个点。在MOT17测试集上,利用单个V100 GPU,以30 FPS的运行速度,实现了80.3 MOTA, 77.3 IDF1和63.1 HOTA。
一、介绍
介绍的第一句,就引用了一句黑格尔的话!还是第一次看到这样的论文,还是比较有意思的。
这句德语啥意思,有两种翻译。通俗一点的解释是:存在即合理。
比较正确且专业的解释是:凡是合乎理性的东西都是现实的;凡是现实的东西都是合乎理性的。
哲学是所有学科的金字塔尖,也是所有学科的金字塔底。
基于检测的跟踪是目前最有效的多目标跟踪方法。但是由于视频中复杂的场景,检测器并不能完美的预测。目前最先进的MOT方法需要权衡检测框中的真阳性/假阳性来消除低置信度检测框。但是直接去除这些低分框真的合理吗?
文章认为,低分框往往意味着被遮挡的物体。去掉这些目标意味着对于MOT造成不可逆误差、漏检和碎片轨迹。并提出了一种充分利用高低置信度检测框