多目标跟踪-MOT16数据集格式介绍

本文详细介绍了MOT16数据集的结构与内容,包括det和gt文件的格式说明,以及seqinfo.ini文件的基本信息。此外还讨论了多目标跟踪算法的实际应用挑战。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

背景介绍

多目标跟踪的问题是这样的:有一段视频,视频是由 N 个 连续帧构成的。从第一帧到最后一帧,里面有多个目标,不断地有出有进,不断地运动。我们的目的是对每个目标,能跟其他目标区分开,维持他们的ID、记录他们的轨迹。
所以MOTchallenge上的大多数算法直接使用数据集里标注的检测结果,而不是自己检测,他们的主要精力在:Occlusions,similar appearance,complex motion,false alarms方面。

MOT16提供了标注好的检测结果。各个算法基本不自己做检测。

数据集介绍

MOT16是2016年提出的多目标跟踪MOT Challenge系列的一个衡量多目标检测跟踪方法标准的数据集。

官方网站:https://motchallenge.net/

论文可见:https://arxiv.org/abs/1603.00831

理解数据集过程参考了这篇博客

解压MOT16后在文件夹下面有两个目录:test和train。分别代表训练集和测试集。
这两个目录分别有7个子目录。每个子目录下都是一段视频的抽帧图片及标注。由于train里面的内容比较全,train里面的数据比test多了一个ground truth,所以下面以train为例介绍。

在“MOT16\train\MOT16-02”目录下有三个目录和一个文件,三个目录分别是:det、gt和img1。一个文件是seqinfo.ini.

det目录

det目录下只有一个det.txt文件,每行一个标注,代表一个检测的物体。
内容摘抄为:

1,-1,1359.1,413.27,120.26,362.77,2.3092,-1,-1,-1
1,-1,571.03,402.13,104.56,315.68,1.5028,-1,-1,-1
1,-1,650.8,455.86,63.98,193.94,0.33276,-1,-1,-1
1,-1,721.23,446.86,41.871,127.61,0.27401,-1,-1,-1
1,-1,454.06,434.36,97.492,294.47,0.20818,-1,-1,-1
1,-1,1254.6,446.72,33.822,103.47,0.14776,-1,-1,-1
1,-1,1301.1,237.38,195.98,589.95,0.051818,-1,-1,-1
.....

其格式为:

<frame>, <id>, <bb_left>, <bb_top>, <bb_width>, <bb_height>, <conf>, <x>, <y>, <z> 

每行10个数字,第一个代表第几帧,第二个代表轨迹编号(在这个文件里总是为-1)

bb开头的4个数代表物体框的左上角坐标及长宽。conf代表置信度,最后3个是MOT3D用到的内容,2D检测总是为-1.

总结:有用的字段主要是frame, bb_left, bb_top, bb_width, bb_height, conf

img1目录

这个目录下就是把视频一帧帧抽取出来的图片,总共600张。文件名则是从000001.jpg到000600.jpg。

gt目录

这个目录下有一个gt.txt文件,内容和上面的det.txt很像。
内容摘抄如下:

1,1,912,484,97,109,0,7,1
2,1,912,484,97,109,0,7,1
3,1,912,484,97,109,0,7,1
4,1,912,484,97,109,0,7,1
5,1,912,484,97,109,0,7,1
6,1,912,484,97,109,0,7,1
7,1,912,484,97,109,0,7,1
.......

第一个值含义同上,第二个值为目标运动轨迹的ID号,第三个到第六个值的同上,第七个值为目标轨迹是否进入考虑范围内的标志,0表示忽略,1表示active。第八个值为该轨迹对应的目标种类(种类见下面的表格中的label-ID对应情况),第九个值为box的visibility ratio,表示目标运动时被其他目标box包含/覆盖或者目标之间box边缘裁剪情况。
第8个值得含义参考下图:

image

seqinfo.ini文件

内容摘抄如下:

[Sequence]
name=MOT16-02
imDir=img1
frameRate=30
seqLength=600
imWidth=1920
imHeight=1080
imExt=.jpg

主要介绍视频的帧率、分辨率等基本信息。

自己的理解

即使有了一个online的MOT跟踪算法,在MOTchanllenge上获得了好成绩,也不是立马可投入生产了。如果想要做一个实时的多目标跟踪器,还需要一个实时的图像检测器程序。这两部分需要足够块,才能适应实时的生产环境。

### MOT17 数据集介绍 #### 数据集概述 MOT17 是多目标跟踪 (Multiple Object Tracking, MOT) 基准测试的一部分,旨在评估不同算法在复杂场景下的性能。该数据集继承并扩展了之前的版本如 MOT15 和 MOT16 的特点,在保持原有框架的基础上增加了新的挑战[^1]。 #### 数据结构与组成 同其他 MOT 系列的数据集一样,MOT17 同样划分为了训练 (`train`) 和测试 (`test`) 集合两部分。每个子集中包含了多个序列(sequence),这些序列由真实世界中的监控摄像头拍摄得到的视频片段构成。具体来说: - **图像文件**: 所有的帧均保存为 JPEG 图像格式,并按照时间顺序编号存储,例如 `000001.jpg` 表示第一个时刻的画面。 - **标注信息**: 对于每一个物体实例都有详细的描述记录在一个 CSV 文件里;每一行对应一个特定的时间点上的某个个体的位置和其他属性。通常情况下,这样的元数据会被分成两种类型——检测(`det.txt`)和追踪轨迹(`gt.txt`)。前者仅提供边界框位置而后者则进一步给出了连续帧之间的关联关系以及身份ID等额外的信息[^4]。 #### 新增特性与改进 相较于前代产品,MOT17 主要引入了一些更难处理的情况来提升模型鲁棒性和泛化能力: - 提高了行人密度,使得场景更加拥挤; - 加入更多遮挡情况,模拟现实环境中常见的障碍物干扰因素; - 使用不同的探测器生成初始候选区域,比如 Faster R-CNN 或 SSD ,以此考察各种预训练权重对于最终效果的影响差异[^3]。 ```python import pandas as pd # 示例读取 det.txt 中的目标检测结果 detections = pd.read_csv('path/to/det.txt', header=None) print(detections.head()) ```
评论 34
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值