1、OTB(Online Object Tracking Benckmark),它是一个经典的目标跟踪数据集,包含了100个视频序列,涵盖了各种场景和挑战性的情况,有很多个评价指标,比如:APE、AOR。
APE(Average Pix111 el Error):平均像素误差,用来判断两个矩形框(预测框和真实框)的靠近程度(也就是框中心位置像素距离),值越大,说明误差越大;
AOR(Average Overlap Rate):平均重叠率,两个矩形框(预测框和真实框)交集面积与并集面积之比取帧平均,用来判断两个矩形框的重叠程度,值越大则重叠的越多,说明跟踪精度较高。
2、GOT-10K是一个通用的目标跟踪数据集,包含了10000个视频序列,覆盖了多种目标类别和场景,主要的评价指标有AO、SR。
AO:平均重叠率,表示所有基本事实和估计边界框之间重叠的平均值;
SR:成功率,测量的是重叠超过阈值(例如,0.5)的成功跟踪帧的百分比。
3、VOT是一个针对视觉目标跟踪的挑战性数据集,包含了多个视频序列,并提供了丰富的挑战性标注,如目标尺度变化、遮挡、快速运动等,主要的评价指标有A、R、EAO、EFO。
准确率Accuracy:在单个测试序列下的平均重叠率(即AOR),只考虑跟踪成功的帧;
鲁棒性Robustness:在单个测试序列下的跟踪失败的次数,跟踪失败也就是重叠率为0;
EAO(Expected Average Overlap):平均重叠期望,数值越大,准确率越高;
EFO(Equivalent Filter Operations):用来衡量速度的指标。
4、LaSOT是一个大规模的长期跟踪基准,有280个长期测试视频,平均长度为2448帧,主要的评价指标有AUC、NP。
AUC:指的是ROC曲线下的面积,使用AUC作为评价指标是因为在某些情况ROC曲线并不能清晰的说明哪个分类器好,而AUC是一个数值,值越大,分类器效果越好;
NP(Negative Pre):是指“不匹配”评价指标,用来衡量目标跟踪器在跟踪过程中预测为负类(即未匹配到目标)的准确性。
5、TrackingNet是指包含511个短期测试视频的大规模视觉跟踪基准,使用的评价指标有:AUC、
NP。
6、UAV123从空中角度包含123个测试序列,评价指标有AUC。
7、TNL2K是一个新提出的数据集,包含700个测试视频,有很多热场景、对抗场景和虚拟场景,主要的评价指标为AUC。
8、NFS包含100个测试视频,但是有许多具有快速运动和分心物的场景,评价指标有AUC。