1. SCUT FIR Pedestrian Dataset
2. FREE Teledyne FLIR Thermal Dataset
13. MFNet(multispectral semantic segementation dataset)
19. BU-TIV (Thermal Infrared Video)
1. SCUT FIR Pedestrian Dataset
1.1数据集简介
- 数据集类型:远红外行人检测数据集
- 图像序列时长:大约11小时
- 帧率:每秒25帧
- 获取方式:通过在速度低于80公里/小时的多种交通场景中行驶获得
- 收集地点:中国广州的11个路段
- 场景分类:市中心、郊区、高速公路、校园
- 图像帧数量:211,011帧
- 边界框总数:477,907个
- 数据集类别:walk person、ride person、squat person、people、person?、people?
|
图1:SCUT FIR Pedestrain示例图 |
1.2 数据集划分
|
|
1.3 相关链接
数据集提取码为:x9lh,数据集标注提取码为:uczk
2. FREE Teledyne FLIR Thermal Dataset
2.1数据集简介
- 图像对数量:提供了10k张光-红外图像对。
- 图像对校正:图像对没有对准,需要在进行融合前进行校正。
- 数据集类型:多通道图像数据集,包含可见光和热成像数据。
- 适用研究领域:适用于图像融合算法的研究。
- 数据集组成:
图像:9,711张热成像图像和9,233张RGB训练/验证图像。
视频:7,498帧视频。
- 数据集类别:包含以下类别的标注:Person(行人)、Bike(自行车)、Car(汽车)、Motorcycle(摩托车)、Bus(公交车)、Train(火车)、Truck(卡车)、Traffic light(交通灯)、Fire Hydrant(消防栓)、Street Sign(街道标志)、Dog(狗)、Skateboard(滑板)、Stroller(婴儿车)、Scooter(电动车)、Other Vehicle(其他车辆)
|
图2:FREE Teledyne FLIR Thermal Dataset 示例图 |
2.2 相关链接
3. LLVIP Dataset
3.1 数据集简介
- 数据集类型:可见光-红外数据集
- 应用目的:用于热红外和可见光行人检测
- 拍摄环境:大部分图像是在非常黑暗的场景下拍摄的
- 数据集特点:用于低光视觉的可见光-红外配对数据集
- 图像数量:包含30,976张图像
- 图像对齐:所有图像在时间和空间上都严格对齐
- 主要类别:行人
|
图3:LLVIP Dataset 示例图 |
3.2 相关链接
4. M3FD Dataset
4.1 数据集简介
- 数据集类型:热红外-可见光图像目标检测数据集
- 传感器配置:一个同步系统,包含一个双目光学摄像头和一个双目红外传感器。
- 图像总数:8400张图像用于融合、检测和基于融合的检测。600张独立场景图像用于融合。
- 图像格式:红外图像:24位灰度位图。可见光图像:24位彩色位图。
- 图像尺寸:大多数为1024 × 768像素。
- 配准情况:所有图像对都已配准。可见光图像通过使用同步系统的内部参数进行校准。红外图像通过齐次矩阵人为扭曲进行校准。
- 标注信息:34407个标记已手动标记。包含6种目标类别:People(人)、Car(汽车)、Bus(公交车)、Motorcycle(摩托车)、Lamp(灯)、Truck(卡车)
|
图4:M3FD Dataset 示例图 |
4.2 相关链接
5. DUT-VTUAV Dataset
5.1 数据集简介
- 数据集应用:用于无人机的单目标跟踪。
- 图像类型:基于热红外和可见光图像。
- 图像对数量:收集了近170万对对齐良好的RGB-T图像对。
- 适用任务:短期跟踪、长期跟踪、带有分割的跟踪
- 子类别:13个子类别。
- 场景:15个场景。
- 城市:跨越2个城市。
|
图5:DUT-VTUAV Dataset 示例图 |
5.2 相关链接
6. KAIST Dataset
6.1 数据集简介
- 数据集应用:热红外和可见光的联合行人检测
- 图像总数:95328张图片
- 图像版本:每张图片包含RGB彩色图像和红外图像两个版本
- 注释总数:103128个密集注释
- 场景类型:校园、街道、乡下
- 场景特点:包括白天和晚上捕获的各种常规交通场景
- 图片大小:640×480像素
- 标签类别:person:比较好区分的个体、people:不太好分辨的多个个体、cyclist:骑行的人、person?:标注者无法明确区分是行人还是其他物体的区域
|
图6:KAIST 示例图 |
6.2 相关链接
7. RoadScene Dataset
7.1 数据集简介
- 数据集特点:对齐的图片,没有语义标签。多通道图像数据集。
- 图像对数量:包含221对对齐良好的可见光(Vis)和红外(IR)图像对。
- 场景内容:包含丰富的场景,如道路、车辆、行人等。
- 图像预处理:对原始红外图像中的背景热噪声进行了预处理。精确对齐了可见光和红外图像对。裁剪出确切的配准区域。
|
图7:RoadScene Dataset示例图 |
7.2 相关链接
8. Freiburg Thermal Dataset
8.1 数据集简介
- 数据集类型:RGB-热成像图像对数据集
- 图像数量:超过20,000对时间同步和对齐的图像对
- 标注情况:没有标注
|
图8:Freiburg Thermal Dataset示例图 |
8.2 相关链接
9. TNO Dataset
9.1 数据集简介
- 数据集类型:单通道图像数据集
- 内容特点:包含不同军事相关场景的多光谱夜间图像
- 光谱类型:增强视觉、近红外、长波红外或热成像
- 相机系统:与不同的多波段相机系统配准
- 适用任务:图像融合、目标检测、图像识别
9.2 相关链接
10. INO Dataset
10.1 数据集简介
- 数据集内容:包含多对在不同天气条件下捕获的场景视频。视频包括可见光和红外视频。
- 场景视频列表:Crossroads、Trees and runner、Visitor parking、Main entrance、Parking evening、Close person、Coat deposit、Multiple deposit、Backyard runner、 Group fight、Parking snow、Highway I、Lobby、Campus、Highway III
10.2 相关链接
11. MSRS Dataset
11.1 数据集简介
- 数据集类型:多通道图像数据集
- 构建基础:基于MFNet数据集
- 数据集规模:715对白天图像对、729对夜间图像对、总计1,444对高质量的对齐红外和可见光图像
|
图9:MSRS Dataset 示例图 |
11.2 相关链接
12. LSOTB-TIR Dataset
12.1 数据集简介
- 数据集类型:热红外目标跟踪数据集
- 图像序列数量:总共包含1,416个热红外(TIR)图像序列
- 总帧数:超过64.3万帧图像
- 注释信息:所有序列中每一帧的对象都进行了边界框注释、总共生成了超过77万个边界框
|
图10:LSOTB-TIR 示例图 |
12.2 相关链接
13. MFNet(multispectral semantic segementation dataset)
13.1 数据集简介
- 数据集类型:RGB-热成像数据集,多通道
- 主要任务:语义分割
- 数据集构建:MFNet数据集构建了一个新的多光谱数据集,用于红外和可见光图像融合
- 图像对数量:包含1,569对图像,820对在白天拍摄、749对在夜间拍摄
- 空间分辨率:480×640像素
- 图像对齐情况:MFNet数据集中有许多图像对没有对齐
- 图像质量:大多数红外图像信噪比低,红外图像对比度低
|
图11:multispectral semantic segementation dataset 示例图 |
13.2 相关链接
14. SIRST(Single-frame InfraRed Small Target (SIRST) Benchmark)
14.1 数据集简介
- 数据集类型:公开的单帧数据集
- 图像选择:从数百个序列中抽取最具代表性的图片。每个红外序列中只选取一幅代表图像。
- 标注形式:图像目标有5种标注形式,适应不同检测模型。
- 支持任务:图像分类、实例分割、边界框回归、语义分割、实例点识别
- 图像和目标数量:427张红外图像、480个目标
- 数据集划分:50% 训练集、20% 验证集、30% 测试集
- 目标特点:许多目标非常模糊、隐藏在复杂的背景中
|
图12:SIRST Dataset 示例图 |
14.2 相关链接
15. SIRST-AUG Dataset
15.1 数据集简介
- 数据集名称:红外小目标检测数据集(ISTDD)
- 图像特点:包含对地面、空中和云层的广泛干扰
- 输入图像尺寸:数据集和网络的输入固定大小调整为256×256像素
- 训练集处理:将512×512像素的调整大小的图像裁剪成256×256像素的目标区域,基于原始比例进行裁剪,每个目标确保位于角落和中心,获得五个裁剪后的图像,每个裁剪后的图像随机旋转0°、45°、90°、135°和180°,角度在一定范围内随机波动,模拟真实且多变的场景
- 图像数量:
训练集:8525张图像
测试集:545张图像
|
图13:ISTDD Dataset 示例图 |
15.2 相关链接
数据集提取码为:ojd4
16. MDvsFA-cGAN
16.1 数据集简介
16.1.1 真实红外图像数据集
- 数据集名称:AllSeqs、Single
- 数据集特点:包含小目标的红外图像
- AllSeqs数据集:包含11个真实红外序列、总共有2098帧
- Single数据集:包含100个具有不同小目标的真实单个红外图像
16.1.2 合成红外图像生成
- 目的:扩充数据集
- 合成图像来源:从互联网上收集的高分辨率自然场景红外图像
- 背景生成:从收集的红外图像中裁剪出不同区域形成背景
- 小目标合成:将真实红外图像中分离出来的小目标对象叠加在背景上、使用二维高斯函数合成的小目标对象叠加在背景上
16.1.3 数据集类别,分辨率,视频帧数量信息
- Cannonball: 352×288, 30 frames; Car: 344×256, 116 frames; Plane: 320×240, 298 frames; Bird: 640×480, 232 frames; Cat: 216×256, 292 frames; Rockets: 320×240, 242 frames; Drone: 384×288, 396 frames; Target1: 480×360, 361 frames; Target2: 256×200, 30 frames; Target3: 352×240, 50 frames; Target4: 384×288, 51 frames; Single-frame: Min:173×98, Max:407×305, 100 images set.
|
图14:MDvsFA-cGAN Dataset 示例图 |
16.2 相关链接
17. IRSTD-1k Dataset
17.1 数据集简介
- 适用任务:目标检测、图像分割
- 数据集特点:针对“弱”与“小”目标的检测和分割,“弱”:信噪比低、与背景对比度差、红外辐射强度弱,“小”:目标像素少,难以获得纹理信息
- 数据集内容:提供1,000个真实图像,包含各种目标形状、不同大小和丰富杂波背景,具有精确的像素级注释
- 数据集结构:分为两个文件夹。IRSTD1k_Img:存放真实图像,IRSTD1k_Label:存放标签mask
- 图像尺寸:512×512像素
- 目标类型:包含多种不同类型的小目标,如:无人机、生物、船只、车辆
- 背景包括:海洋、河流、田野、山区、城市、含有大量杂波和噪声的云层
|
图15:IRSTD-1k Dataset 示例图 |
17.2 相关链接
18. OTCBVS Dataset
OTCBVS Dataset数据集简介
共包含包含14个子数据集,进行分别介绍
18.1 OSU Thermal Pedestrian Database
18.1.1 数据集简介
- 数据集来源:俄亥俄州立大学校园内的人行横道
- 序列数量:10个独立序列
- 总图像数量:284张图像
- 图像格式:8位灰度位图
- 图像尺寸:360 × 240像素
- 采样率:非均匀,小于30Hz
- 真实标注数据:围绕人物的边界框列表,边界框具有大致相同的纵横比,只选择了至少50%可见在图像中的人物,高度遮挡的人物未被选择
|
图16:OSU Thermal Pedestrian Database 示例图 |
18.2 IRIS Thermal/Visible Face Database
18.2.1 数据集简介
- 研究主题:在可变的光照、表情和姿势下同时获取的未配准的热成像和可见光面部图像。
- 总大小为1.83 GB
- 图像尺寸:320 × 240像素(可见光和热成像)
- 4228对人眼和热成像图像对
- 每人176-250张图像,每种表情和每种照明条件下11张图像(每个表情和照明条件下的不同姿势)30名个体 - 表情、姿势和照明
- 表情:ex1、ex2、ex3 - 惊讶、大笑、生气(变化的姿势)
- 照明:Lon(左侧灯亮)、Ron(右侧灯亮)、2on(两侧灯都亮)、dark(暗室)、off(左右两侧灯都关)、变化的姿势
18.3 OSU Color-Thermal Database
18.3.1 数据集简介
- 研究主题:颜色和热成像图像的融合,基于融合的颜色和热成像图像的对象检测
- 采集地点:俄亥俄州立大学校园内繁忙的人行道交叉口
- 颜色/热成像序列数量:6(每个位置3个)
- 总图像数量:17089
- 图像格式:热成像:8位灰度位图,彩色:24位彩色位图
- 图像尺寸:320 × 240像素
- 采样率:大约30Hz
- 图像配准:使用手动选择的点通过单应性将彩色/热成像图像配准
|
图17:OSU Color-Thermal Database 示例图 |
18.4 Terravic Facial IR Database
18.4.1 数据集简介
- 研究主题:面部分析:使用热成像技术进行面部特征的分析。
- 热序列数量:20个不同的热成像序列。
- 变化情况:包含不同的面部朝向(正面、左侧、右侧)和环境条件(室内/室外),以及不同的装饰(戴眼镜、戴帽子)。
- 图像格式:8位灰度JPEG,适用于热成像数据的存储和展示。
- 图像尺寸:320 × 240像素,提供足够的分辨率以进行面部特征分析。
|
图18:Terravic Facial IR Database 示例图 |
18.5 Terravic Motion IR Database
18.5.1 数据集简介
- 研究主题:检测和跟踪:利用热成像技术进行目标的检测与跟踪。
- 热序列数量:共18个不同的热成像序列。
- 场景分类:
- 室外运动和跟踪场景:11个序列。
室外房屋监控:1个序列。
室内走廊运动:1个序列。
飞机运动和跟踪:1个序列。
水下和近水面运动:2个序列。
平静背景运动:2个序列。
- 图像格式:8位灰度JPEG,适合热成像数据的存储和展示。
- 图像尺寸:320 × 240像素,提供足够的分辨率以进行目标检测和跟踪。
|
图19:Terravic Motion IR Database 示例图 |
18.6 Terravic Weapon IR Database
18.6.1 数据集简介
- 研究主题:
武器存在检测:利用热成像技术检测隐藏或可见的武器。
武器发射检测:使用热成像技术检测和分析武器发射时产生的热信号。
- 热序列数量:共5个不同的热成像序列。
武器存在检测场景:1个序列。
武器发射检测场景:4个序列。
- 图像格式:8位灰度JPEG,适合热成像数据的存储和展示。
- 图像尺寸:320 × 240像素,提供足够的分辨率以进行目标检测和分析。
|
图20:Terravic Weapon IR Database 示例图 |
18.7 CBSR NIR Face Dataset
18.7.1 数据集简介
- 研究主题:
近红外面部检测:使用近红外技术进行面部的定位和检测。
近红外眼部检测:在近红外图像中进行眼部的定位和检测。
近红外面部识别:基于近红外图像的面部识别技术。
- 图像数量:共197人的3940张近红外面部图像。
- 图像尺寸:480×640像素,8位,未压缩。
- 图像集合:图像被分为两个集合:
画廊集合:每人有8张图像。
探针集合:每人有12张图像。
- 图像信息:提供了包括图像编号、人员编号和眼睛坐标的详细信息。
|
图21:CBSR NIR Face Dataset 示例图 |
18.8 Audio-Visual Vehicle (AVV) Dataset
18.8.1 数据集简介
- 非红外光数据集
18.9 CSIR-CSIO Moving Object Thermal Infrared Imagery Dataset (MOTIID)
18.9.1 数据集简介
- 研究主题:移动物体检测:在热红外图像中检测包括行人、车辆等在内的移动目标
- 热序列数量:共18个热成像视频序列
- 移动目标类型:
两种不同的四轮车:大使牌和Innova牌
一辆三轮车:自动人力车
一辆两轮车:摩托车
人类行人:在不同距离行走
遛狗
飞翔的鸟
- 图像尺寸:640 × 480像素,提供清晰的热成像分辨率
- 采样率:10Hz,即每秒钟捕获10帧图像
- 视频序列时长:每个热视频序列的持续时间在4-22秒之间变化
- 目标行为:每个热视频序列包含一个或多个移动目标进入和退出摄像机视野
|
图22:MOTIID 示例图 |
18.10 Pedestrian Infrared/visible Stereo Video Dataset
18.10.1 数据集简介
- 研究主题:立体视频分析:在红外和可见光立体视频中对近距离行人进行空间定位和特征提取。
- 视频对数量:共四个红外-可见光视频对。
- 帧数范围:每个视频对的帧数在100到4400帧之间,提供不同长度的视频序列。
- 分辨率:视频的分辨率为480 × 360像素,适合立体视觉分析。
- 注释信息:
206帧进行了视差注释,为立体匹配和深度估计提供了基准。
25819对真值点,用于评估算法性能和精度。
- 前景信息:提供了前景信息,有助于目标检测和分割。
- 演员数量:所有视频包含1到5位演员走动。
- 遮挡情况:视频中的演员存在相互遮挡的情况,增加了行人检测和跟踪的难度。
![]() |
图23:Pedestrian Infrared/visible Stereo Video Dataset 示例图 |
18.11 Thermal Infrared Video Benchmark for Visual Analysis
18.11.1 数据集简介
- 研究主题:目标检测、计数和跟踪:在红外视频中进行单视图和多视图的目标检测、计数和跟踪。
- 基准测试规模:包括超过60,000帧。
- 视觉任务类型:
跟踪低分辨率下单个行人:帧尺寸1024×640。
跟踪低分辨率下的单个飞行蝙蝠:帧尺寸1024×512。
跟踪多个对象(行人、汽车、自行车、摩托车):帧尺寸1024×512。
跟踪多个飞行蝙蝠:帧尺寸1024×1024。
从多个视图跟踪多人的平面运动:帧尺寸512×512。
从三个视图以3D方式跟踪多个飞行蝙蝠:帧尺寸640×512。
在高密度下计算飞行蝙蝠的数量:帧尺寸640×512和1024×1024。
|
图24:Thermal Infrared Video Benchmark for Visual Analysis 示例图 |
18.12 Maritime Imagery in the Visible and Infrared Spectrums
18.12.1 数据集简介
研究主题
- VAIS数据集:用于船舶目标分类的热成像和可见光图像数据集。
- 总红外图像数量:1242张。
- 总可见光图像数量:1623张。
- 总图像数量:2865张。
- 总图像对数量:1088对(同时获取但未进行配准的热成像和可见光图像对)。
- 独特船只数量:264艘。
- 夜间红外图像数量:154张。
- 基础类别数量:6个。
- 细粒度类别数量:15个。
|
图25:Maritime Imagery in the Visible and Infrared Spectrums 示例图 |
18.13 ContactDB: Analyzing and Predicting Grasp Contact via Thermal Imaging
18.13.1 数据集简介
- 研究主题:手-物体接触:研究在抓取家用物品过程中手与物体的接触方式。
- 视频内容:人类参与者抓取家用物品的RGB-D-热成像扫描视频。
- 纹理对象网格:每个扫描视频有对应的有纹理的对象网格。
- 纹理表示:纹理表示接触点,有助于分析接触区域。
- 接触揭示方式:手-物体接触通过热成像相机揭示,因为抓取过程中手向物体传递热量。
- 参与者数量:50名参与者。
- 抓取对象数量:
48个以“传递”意图抓取的对象。
27个以“使用”意图抓取的对象。
- 图像尺寸:
RGB-D图像:960×540像素。
热成像图像:640×512像素。
|
图26:ContactDB: Analyzing and Predicting Grasp Contact via Thermal Imaging 示例图 |
18.14 DIAST Variability Illuminated Thermal and Visible Ear Image Dataset
18.14.1 数据集简介
- 研究主题:耳朵识别:利用热成像和可见光图像进行耳朵的识别研究。
- 图像融合:研究如何融合热成像和可见光图像以提高识别效果。
- 受试者数量:55名受试者的侧面轮廓耳朵图像。
- 图像类型:包括可见光和热成像的灰度图像。
- 照明条件:在5种不同的照明条件下拍摄图像,照明范围在1勒克斯到10700勒克斯之间。
- 图像拍摄次数:对于每只耳朵的每种照明条件,都拍摄了两次图像。
右耳:10张可见光图像和10张热成像图像。
左耳:10张可见光图像和10张热成像图像。
- 图像配对:每张可见光图像都有相应的热成像图像,并已手动配准。
- 图像分辨率:所有图像(可见光和热成像)的分辨率均为125×125像素。
- 图像总量:
1100张可见光图像(左耳550张,右耳550张)。
1100张热成像图像(左耳550张,右耳550张)。
总计2200张图像。
18.15 相关链接
19.BU-TIV (Thermal Infrared Video)
19.1 数据集简介
- 研究主题:目标检测、计数、跟踪:专注于红外视频中的单视图和多视图目标检测、计数和跟踪。
- 基准测试规模:超过60,000帧的视频数据。
- 相机校准文件:提供用于多视图几何分析的相机校准文件。
- 视觉任务类型:
低分辨率下的单个行人跟踪:帧尺寸1024×640。
低分辨率下的单个蝙蝠跟踪:帧尺寸1024×512。
多目标跟踪(行人、汽车、自行车、摩托车):帧尺寸1024×512。
多目标蝙蝠跟踪:帧尺寸1024×1024。
多视角下的多个行人跟踪(具有平面运动):帧尺寸512×512。
从三个视角进行的3D多蝙蝠跟踪:帧尺寸640×512。
高密度下的蝙蝠计数:帧尺寸640×512 和 1024×1024。
|
图27 BU-TIV Dataset 示例图 |
19.2 相关链接