目标跟踪--目标跟踪数据集MOT16/MOT17/MOT20的区别

最新推荐文章于 2024-06-09 18:44:03 发布

V建模忠哥V

最新推荐文章于 2024-06-09 18:44:03 发布

阅读量7.1k

点赞数 10

文章标签：目标跟踪人工智能计算机视觉 python 算法

本文链接：https://blog.csdn.net/weixin_43608857/article/details/131696500

版权

python 同时被 3 个专栏收录

7 篇文章

订阅专栏

目标跟踪

2 篇文章

订阅专栏

yolov5

2 篇文章

订阅专栏

本文介绍了MOTChallenge数据集，特别是MOT16和MOT20，用于行人多目标跟踪任务，以及KITTI数据集，它是自动驾驶领域的重要资源，支持多种视觉任务。MOT数据集包含标注信息，如bbox坐标、置信度和类别，而KITTI数据集提供激光雷达数据和3D跟踪信息。此外，还详细阐述了数据集的下载、结构和使用注意事项。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.数据集的下载

（1）MOT数据集

MOT Challenge - Data

MOT16下载地址：
链接：https://pan.baidu.com/s/1H7v6oyqpy9UKtRplS_PZVA
提取码：t7vy

MOTChallenge是目前MOT领域使用最多的数据集，主要是针对行人多目标跟踪任务，包括MOT15、MOT16、MOT17和MOT20等数据集

---------------------------------------------------------------------------------------------------------

（2）KITTI数据集

官方：The KITTI Vision Benchmark Suite

KITTI数据集是目前全球最大的自动驾驶场景数据集，支持双目、光流、视觉测距、3D目标检测和3D跟踪等任务。通过一辆装有彩色/灰色立体摄像头、Velodyne HDL-64E旋转式3D激光扫描仪和GPS/IMU导航系统等多传感器的汽车在城市中环、郊区和高速公路等多个场景的多个路段收集而成。

对于MOT任务，KITTI提供了激光雷达点云和3D包围框轨迹。

需要注意的是：官方提供的下载方式是下载下图中的scripts，然后运行文件夹中的脚本，但是国内连接不上。科学上网只能在chrome浏览器上（网上教程很多哈）

这里给大家另外一个开源网站

-OpenDataLab-有影响力的数据开源开放平台，公开数据集触手可及

2.MOT数据集的理解

（1）MOT-2020（MOT challenge2020MOT challenge2020）

MOT Challenge

一共8个视频序列，4个训练集，4个测试集。测试集的gt没有给出，因此想要得到测试集的结果需要在MOT官网上传你的结果去评估。
每个图片都是jpg格式，且命名为6个数字的文件如(000001.jpg)
平均每帧有246个行人。
除了行人，注释还包括车辆和自行车等其他类别。

标注det.txt和gt.txt

1: 该目标出现的帧号

2：该目标被分配的唯一ID号，在det(检测)文件中为-1

3：目标bbox 左上角的x的坐标

4：目标bbox 左上角的y的坐标

5：目标bbox 的宽

6：目标bbox 的高

7：置信度。det中表示该目标是行人的概率，gt 中若评估该目标则为1 ，忽略则设置为0

8：gt 中表示该目标的类别， Det 为 -1

9：可见率，gt中表示该目标的可见程度，可能被遮挡或者图像边框裁剪导致目标不完整，值为0-1 det 中为-1

类别表示

其中det 和gt 的区别：

det.txt文档包含检测框分配的ID、左上角坐标和框的尺寸、物体置信度、图片帧数等说明。根据使用者的需要，可以直接利用数据集的det.txt文档衡量跟踪器的性能，从而屏蔽检测器的性能影响。gt.txt只包含在训练集的子文件夹中，保存目标真实标签值，诸如跟踪轨迹ID、目标类别等。MOT-16的文件夹中，每个文件夹是一个视频的所有图像帧序列，每个视频约截取800-1200帧图像。

测试集的提交格式

每个视频序列一个txt文本，命名为sequence.txt，每一行表示一个目标，包含10个值，以,分割：

<frame>, <id>, <bb_left>, <bb_top>, <bb_width>, <bb_height>, <conf>, <x>, <y>, <z>

前七个值和训练gt 意义一样，conf 填充1 ，。最后3哥值表示3D MOT，评估2D 数据集时，最后三个值x,y ,z 填充为-1，同样，评估3D 数据集时，将bbox4个值填充为-1

（2）MOT-2016（MOT challenge2016）

MOT16 数据集中提供了标注好的检测结果，各个算法基本自己不做检测

MOT16数据集共有14个视频序列，其中7个为带有标注信息的训练集，另外7个为测试集。下图第一行为训练集，第二行为测试集。

下图为MOT16数据集的数据统计表，第一个表为训练集，第二个表为测试集，表格信息包含视频帧率（帧/秒），每帧图像的尺寸，时长，标注box数量，平均每一帧出现的行人数，相机运动情况和拍摄视角以及天气状况。

MOT16采用了一些较领先的目标检测算法来测试数据集的标注框，其中目标检测算法表现的准确率与召回率曲线如下图所示：

下图显示了用DPM方法检测MOT16数据中目标的统计结果：14个视频序列，表格包含每个视频的目标检测总数（检测出的box），平均每帧目标检测数，检测出的bounding box在画面中的最高、最低的位置。

MOT16数据集的标注规则（Annotation Rules）

MOT16标注的主要是移动中的目标，将所有目标简要分为以下三类：
Target：(i)移动中的行人与站立的行人；
Ambiguous：(ii)不处于直立状态的人与人造物（artificial representations）
Other：(iii)车辆和互相包含/遮挡的目标（vehicles and occluders）
第一种类别中，由观察者标注所有出现在视野中移动或直立的人，包括在自行车或者滑板上的人，处于弯腰、深蹲、与小孩对话、捡东西状态的行人也同样被考虑在该类别内。
第二种类别中，包括people-like的目标（模特，出现人的picture，反射的人影），被划分为模糊目标（不同viewer之间的意见变化较大的），不处于直立状态的静态的人（坐着或躺着的）。带着墨镜的人被划分为distractors。
第三种类别中，标注所有移动的车辆和非机动车（如婴儿车）和其他存在潜在包含/遮挡关系的物体。这个类别中的标注信息仅提供给参赛者训练使用，不算在评价目标检测方法的准则中，静态的车辆或者自行车若没有包含行人则不考虑在内。

det目录

det目录下只有一个det.txt文件，每行一个标注，代表一个检测的物体。

格式

<frame>, <id>, <bb_left>, <bb_top>, <bb_width>, <bb_height>, <conf>, <x>, <y>, <z>

内容摘抄为：

1,-1,1359.1,413.27,120.26,362.77,2.3092,-1,-1,-1
1,-1,571.03,402.13,104.56,315.68,1.5028,-1,-1,-1
1,-1,650.8,455.86,63.98,193.94,0.33276,-1,-1,-1
1,-1,721.23,446.86,41.871,127.61,0.27401,-1,-1,-1
1,-1,454.06,434.36,97.492,294.47,0.20818,-1,-1,-1
1,-1,1254.6,446.72,33.822,103.47,0.14776,-1,-1,-1
1,-1,1301.1,237.38,195.98,589.95,0.051818,-1,-1,-1
.....

gt 目录

1,1,912,484,97,109,0,7,1
2,1,912,484,97,109,0,7,1
3,1,912,484,97,109,0,7,1
4,1,912,484,97,109,0,7,1
5,1,912,484,97,109,0,7,1
6,1,912,484,97,109,0,7,1
7,1,912,484,97,109,0,7,1
.......

第一个值含义同上，第二个值为目标运动轨迹的ID号，第三个到第六个值的同上，第七个值为目标轨迹是否进入考虑范围内的标志，0表示忽略，1表示active。第八个值为该轨迹对应的目标种类（种类见下面的表格中的label-ID对应情况），第九个值为box的visibility ratio，表示目标运动时被其他目标box包含/覆盖或者目标之间box边缘裁剪情况。

img1目录

这个目录下就是把视频一帧帧抽取出来的图片，总共600张。文件名则是从000001.jpg到000600.jpg。

其中 seqinfo.ini文件的内容

[Sequence]
name=MOT16-02
imDir=img1
frameRate=30
seqLength=600
imWidth=1920
imHeight=1080
imExt=.jpg

主要介绍视频的帧率、分辨率等基本信息

（2）MOT-2017（MOT challenge2017）

该数据集中的文件结构如图所示。MOT17有21个训练集和21个检测集。

det

训练集中/det 文件夹中是针对检测的信息，该目录下只有一个det.txt文件，每行一个标注，代表一个检测的物体。

每一行标注的含义如下：第一个代表第几帧，第二个代表轨迹编号（因为检测结果只看检测框质量，不看id，故为id=-1。），bb开头的4个数代表物体框的左上角坐标及长宽。conf代表置信度，最后3个是MOT3D用到的内容，2D检测总是为-1.

<frame>, -1, <bb_left>, <bb_top>, <bb_width>, <bb_height>, <conf>, <3D_x>, <3D_y>, <3D_z>

训练集中/gt 文件夹中是针对追踪的信息，该目录下只有一个gt.txt文件，每行一个标注，代表一个检测的物体。

每一行标注的含义如下：第一个代表第几帧，

第二个值为目标运动轨迹的ID号，

第三个值到第六个值中 bb开头的4个数代表物体框的左上角坐标及长宽，

第7个值为目标轨迹是否进入考虑范围内的标志，0表示忽略，1表示active。

第八个值为该轨迹对应的目标种类（种类见下面的表格中的label-ID对应情况），

第九个值为box的visibility ratio，表示目标运动时被其他目标box包含/覆盖或者目标之间box边缘裁剪情况。

<frame>, <id>, <bb_left>, <bb_top>, <bb_width>, <bb_height>, <trajectory_conf>, <trajectory_type>, <visibility_ratio>