【2024最新】多目标跟踪MOTchallenge数据集格式介绍

最新推荐文章于 2025-03-06 23:30:00 发布

得逞

最新推荐文章于 2025-03-06 23:30:00 发布

阅读量2.2k

点赞数 18

分类专栏：多目标跟踪文章标签：计算机视觉目标跟踪人工智能深度学习

本文链接：https://blog.csdn.net/weixin_44606353/article/details/136556167

版权

多目标跟踪专栏收录该内容

9 篇文章

订阅专栏

本文介绍了MOTchallenge数据集的发展历程，重点讲解了MOT17数据集的文件目录结构，包括seqinfo.ini中的序列信息和det.txt/gt.txt中的检测框与轨迹信息，强调了这些数据对于目标检测器训练的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

- MOTchallenge数据集
- - 数据集格式

MOTchallenge数据集

官网： https://motchallenge.net/

MOT15：15 年的都是采集的老的数据集的视频做的修正。参考论文：MOTChallenge 2015: Towards a Benchmark for Multi-Target Tracking
MOT16：16 年的是全新的数据集，相比于 15 年的行人密度更高、难度更大。特别注意这个 DPM 检测器，效果非常的差，全是漏检和误检。参考论文：MOT 16: A Benchmark for Multi-Object Tracking
MOT17：17 年的视频和 16 年一模一样，只是提供了三个检测器，相对来说更公平。也是现在论文的主流数据集。
MOT19：19 年的是针对特别拥挤情形的数据集，只有 CVPR 19 比赛时才能提交。
MOT20：20年的相比于此前的多目标跟踪（multi-object tracking）数据集，更加关注人群密集的场景，其视频最多可达单帧 246 人。

数据集格式

拿 MOT 17 举例

文件目录

- MOT17
    - train
        - MOT17-02-DPM
            - det
                - det.txt
            - gt
                - gt.txt
            - img1
            - seqinfo.init
        - MOT17-02-FRCNN
        ...
    - test
        - MOT17-01-DPM
            - det
                - det.txt
            - img1
            - seqinfo.ini
        - MOT17-01-FRCNN
        ...

seqinfo. ini

在每个子文件夹中都有这个，主要用于说明这个文件的一些信息，比如长度，帧率，图片的长和宽，图片的后缀名。

[Sequence]
name=MOT17-02-DPM
imDir=img1
frameRate=30
seqLength=600
imWidth=1920
imHeight=1080
imExt=.jpg

det. txt

这个文件中存储了图片的检测框的信息 (检测得到的信息文件)，部分内容展示如下：

1,-1,1359.1,413.27,120.26,362.77,2.3092,-1,-1,-1

从左到右分别代表：

frame: 第几帧图片
id: 这个检测框分配的 id，在这里都是-1 代表没有 id 信息
bbox (四位): 分别是左上角坐标和长宽
conf：这个 bbox 包含物体的置信度，可以看到并不是传统意义的 0-1，分数越高代表置信度越高
MOT 3 D (x, y, z): 是在 MOT 3 D 中使用到的内容，这里关心的是 MOT 2 D，所以都设置为-1

可以看出以上内容主要提供的和目标检测的信息没有区别，所以也在一定程度上可以用于检测器的训练。

gt. txt

这个文件只有 train 的子文件夹中有，test 中没有，其中内容的格式和 det. txt 有一些类似，部分内容如下：

1,1,912,484,97,109,0,7,1

从左到右分别是：

frame: 第几帧图片
ID: 也就是轨迹的 ID，可以看出 gt 里边是按照轨迹的 ID 号进行排序的
bbox: 分别是左上角坐标和长宽
是否忽略：0 代表忽略
classes: 目标的类别个数（这里是驾驶场景包括 12 个类别），7 代表的是静止的人。第 8 个类代表错检，9-11 代表被遮挡的类别
最后一个代表目标运动时被其他目标包含、覆盖、边缘裁剪的情况。