https://blog.csdn.net/weixin_55775980/category_11713821.html?spm=1001.2014.3001.5482
一、多目标跟踪定义:
多目标跟踪旨在将视频序列中感兴趣的目标检测出来,并赋予每个目标单独的编号,在整个序列中形成目标的轨迹。
利用图像中目标的类别位置信息与之前帧的轨迹进行数据关联
二、多目标跟踪分类
- Online: 算法在推理目标身份过程中,只能看见当前帧以及之前的帧
- Offline:算法在推理目标身份过程中,可以看见整个视频序列中的所有帧
三、多目标跟踪难点分析
1、目标模糊、遮挡造成目标外观特征不稳定
2、相机运动等造成的外观特征与运动特征变化
3、各类别样本数量不均衡,分类器难以训练
4、目标尺寸小容易造成漏检
5、实时性要求
-
四、多目标跟踪数据集
五、多目标跟踪评价指标
一、经典度量方式
1、多数被跟踪轨迹(Mostly Tracked trajectories,MT):
真实轨迹中在大于等于80%的帧中被正确跟踪的数据,只关心轨迹,不关心ID是否切换,值越大越好
2、多数丢失轨迹(Mostly Lost trajectories,ML):
真实轨迹中在小于等于20%的帧中被正确跟踪的数据,只关心轨迹,不关心ID是否切换,越小越好
3、ID切换次数(ID Switches,IDS):
ID错误切换的次数,越小越好
二、ID度量方式:专门衡量ID分配的准确度和稳定性
IDF1:是指在ID保持相同的情况下,跟踪的准确流率和召回率的F-score值,一般来说IDF1是用来评价跟踪器好坏的第一默认指标。
三、经常使用的:
1.MOTA:多目标跟踪准确率(Multiple Object Tracking Accuracy)
直观的衡量跟踪器在检测物体(TN, FP)和保持轨迹(IDSW) ID错误切换次数的指标。
2.MOTP:多目标跟踪准确率(Multiple Object Tracking Precision)
考虑回归的边界框质量,从而计算与真值边界框的欧氏距离度量,主要体现检测性能
六、多目标研究方案
6.1 MOT三种框架——基于Tracking-by-detection的MOT
基于Tracking-by-detaction框架的MOT算法是先对视频序列的每一帧进行目标检测,根据包围框对目标进行裁剪,得到图像中的所有目标。然后,转化为前后两帧之间的目标关联问题,通过IoU、外观等构建相似度矩阵,并通过匈牙利算法、贪婪算法等方法进行求解。
代表方法:SORT、DeepSORT
6.2 MOT三种框架——基于检测和跟踪联合的MOT
JDE采用FPN结构,分别从原图的 1/8,1/16 和 1/32 三个尺度进行预测。在这三个不同尺度的输出特征图上分别加入预测头(prediction head),每个预测头由几层卷积层构成,并输出大小为 (6A+D)×H×W 的特征向量。其中 A 为对应尺度下设置的锚框的数量,D 是外观特征的维度。
JDE在MOT16测试集上MOTA=64.4%,GPU环境下,高分辨率输入图像下FPS达到22.2,低分辨率输入图像下FPS达到30.3,是第一个接近实时的多目标跟踪算法。
代表方法:JDE、FairMOT、CenterTrack、ChainedTracker等
6.3 MOT三种框架——基于注意力机制的MOT
随着Transformer[42]等注意力机制在计算机视觉中的应用火热,近期开始有研究者提出了基于注意力机制的多目标跟踪框架,目前主要有TransTrack[43]和TrackFormer[44],这两项工作都是将Transformer应用到MOT中。
TransTrack将当前帧的特征图作为Key,将前一帧的目标特征Query和一组从当前帧学习到的目标特征Query一起作为整个网络的输入Query。
代表方法:TransTrack、TrackFormer等