论文:
一、摘要
多目标跟踪(MOT)是计算机视觉中的一个重要问题,具有广泛的应用前景。可以将MOT描述为在单个网络中完成目标检测和Re-ID这两个任务,因为它允许两个任务联合优化并且具有较高的计算效率。然而,我们发现这两项任务往往是相互竞争的,需要认真处理。特别是,以往的工作通常将Re-ID视为次要任务,其准确性严重受到检测任务的影响。因此,网络偏向于主检测任务,而对Re-ID任务不公平。为了解决这个问题,本文提出了一种简单有效的方法,即基于anchor-free目标检测体系结构CenterNet的FairMOT。FairMOT不是CenterNet和Re-ID的简单组合,而是提出了一系列详细的设计,这些设计对于网络能够在实际应用中获得良好的跟踪结果至关重要。该方法在检测和跟踪方面都具有较高的精度,在几个公共数据集上,该方法的性能大大优于SOTA。
二、Motivation
1、目标检测与Re-ID的冲突
MOT任务可以描述为在单个网络中完成目标检测和Re-ID这两个任务。但是这两个任务往往是相互竞争的,而以往的工作常将Re-ID视为次要任务,其准确性严重受到检测任务的影响。因此,网络的设计会对这个任务的性能产生很大的影响。
2、检测+Re-ID(关联)的MOT范式在复杂场景下的问题
检测+Re-ID(关联)的MOT在复杂场景(如存在大量的object)下,由于检测和关联两个模块是相互独立的,两者之间不能有效地共享目标数据,且对视频中的每个边界框分别应用Re-ID模型,这会导致,模型的实时推理慢。
三、创新点
1、提出FairMOT,将检测和Re-ID集成到一个统一的框架中,在该网络下检测和Re-ID(关联)不会发生冲突,提高来MOT的公平性和性能。
2、设计了一种可训练的公平性损失函数,用于平衡检测和Re-ID之间的重要性,从而提高模型的公平性。
3、在部分数据集上实现了SOTA。
四、实现细节
1、总结之前将检测和Re-ID统一到同一网络下失败的原因
(1)anchor不适合Re-ID任务
在MOT中,anchor用于检测目标,然后根据检测的结果提取Re-ID特征,但是当检测的结果是错误的时候,这时的Re-ID特征是无效的。而且当两个任务之间发生竞争时,它将有利于检测任务。因为在训练Re-ID特征时,一个anchor可能对应多个身份,多个anchor也可能对应一个身份,尤其是在拥挤的场景中。
(2)特征共享
检测需要高纬的特征来区分不同类别的object,而Re-ID需要低纬的特征来区分同一类别的不同object。
(3)特征维数
检测需要的特征的维数要低于Re-ID所需要的特征维数。但是实验表明低纬度的Re-ID特征有助于提高网络的性能。
2、FairMOT概述
(1)网络结构
图1 FairMOT概述。首先将输入图像送到编码器-解码器网络以提取高分辨率特征图(stride=4),然后加入两个同构分支分别用于目标检测和Re-ID特征提取,在预测的目标中心的特征被用于跟踪。
(2)Backbone Network
采用了ResNet-34作为主干;使用增强版本的深层聚合(Deep Layer Aggregation, DLA) 来融合多个层的特征。
与原始DLA不同,它在低级和高级特征之间有更多的跳过连接,类似于特征金字塔网络(FPN)。此外,所有上采样模块中的卷积层都被可变形卷积取代,这使得可以根据物体的尺度和姿态动态调整感受野且助于缓解对齐问题,修改后的模型命名为DLA-34。
(3)Detection Branch
FairMOT的Detection Branch是通过基于anchor-free的CenterNet建立的。三个平行的头被附加到DLA-34上,分别用于估计Heatmap、对象中心偏移(object center offsets)和边界框大小(bounding box sizes)。每个头部都是通过对DLA-34的输出特征先应用3 × 3卷积来实现的,最后再通过1 × 1卷积层,生成最终目标。
- Heatmap Head
负责估计物体中心的位置,维度为1 × H × w,若图中某个位置的响应与GT对象中心坍塌,则预计为1;响应随着热图位置和物体中心之间的距离呈指数衰减。Heatmap的损失函数使用Focal Loss。该模块的损失函数设计如下:
- object center offsets
辅助精准定位object。
- bounding box sizes
负责估计bbox在每个位置的高度和宽度。该模块的损失函数设计如下:
(4)Re-ID Branch
在主干特征上使用一个具有128个核的卷积层来提取每个位置的Re-ID特征,生成能够区分对象的特征。理想情况下,不同对象之间的相似度应该小于相同对象之间的相似度。
该模块的的损失函数设计为:
(5)损失函数
损失函数=检测损失+Re-ID损失。