20个红外目标检测数据集
- 1. FLIR 红外数据集(RGB-T object detection)
- 2. SCUT 红外行人检测数据集(SCUT FIR Pedestrian Dataset)
- 3. Teledyne 红外免费数据集(FREE Teledyne FLIR Thermal Dataset)
- 4. LLVIP 数据集 (Low-Light Vision Infrared-Paired)
- 5. M3FD Dataset
- 6. KAIST Dataset
- 7. RoadScene Dataset
- 8. Freiburg Thermal Dataset
- 9. TNO Dataset
- 10. INO Dataset
- 11. 多光谱道路场景数据集(MSRS Dataset)
- 12. LSOTB-TIR Dataset
- 13. MFNet(multispectral semantic segementation dataset)
- 14. SIRST(Single-frame InfraRed Small Target)
- 15. MDvsFA-cGAN
- 16. IRSTD-1k Dataset
- 17. BU-TIV (Thermal Infrared Video)
- 18. DUT-VTUAV Dataset
- 20. OTCBVS Dataset
本文整理了20个红外目标检测数据集,介绍这些数据集的基本信息和下载地址。
1. FLIR 红外数据集(RGB-T object detection)
1.1 数据集简介
由FLIR公司提供的用于热红外和可见光联合目标检测的数据集。
该数据集包含10,000多张配对的可见光和红外图像,每张可见光图像都有一张对应的红外图像。
数据集标注了4个类别:行人(person)、自行车(bicycle)、汽车(car)和狗(dog)。训练集上有person: 22372个, bicycle :3986个, car :41260个, dog :226个;测试集上有person: 5779个, bicycle :471个, car :5432个, dog :14个
注意该数据集中的图像对没有经过精确对准,进行融合前需要进行配准。
FLIR Dataset适用于开发热红外与可见光联合的目标检测算法,尤其是在夜间或低光照条件下。
1.2 标注类别
行人(person)
自行车(bicycle)
汽车(car)
狗(dog)
1.3 下载链接
下载地址:FREE Teledyne FLIR Thermal Dataset for Algorithm Training
2. SCUT 红外行人检测数据集(SCUT FIR Pedestrian Dataset)
2.1 数据集简介
SCUT FIR Pedestrian Dataset(华南理工大学远红外行人检测数据集)是一个大规模的远红外行人检测数据集。该数据集包含大约11小时的图像序列,帧率为每秒25帧,图像帧数量达到211,011帧,边界框总数为477,907个。
数据集类型:大型远红外行人检测数据集
图像内容:大约11小时图像序列
帧率:每秒25帧
获取方式:通过在速度低于80公里/小时的多种交通场景中行驶获得
收集地点:中国广州市中心、郊区、高速公路和校园等4种场景下的11个路段
图像帧数量:211,011帧
边界框数量:477,907个边界框
数据集类别:walk person、ride person、squat person、people、person?、people?
2.2 标注类别
walk_person : 走路的人
ride_person :骑车的人
squat_person :蹲着的人
people: 一群人
person? :不确定是否是人
people? : 不确定是否是一群人
2.3 下载链接
Github:https://github.com/SCUT-CV/SCUT_FIR_Pedestrian_Dataset
数据集下载链接:https://pan.baidu.com/share/init?surl=t-Hm4861h7HBJ9Jzza64og,code: x9lh
数据集标注下载链接:https://pan.baidu.com/share/init?surl=h2uzjeOK_KjRaQz-JNtzJg,code: uczk
2.4 解析例程
# 传入官方txt文档路径,返回解析好的字典格式内容
def process_txt(txtpath):
"""
传入原始txt文件路径,解析文件
walk_person : 走路的人
ride_person :骑车的人
squat_person :蹲着的人
people: 一群人
person? :不确定是否是人
people? : 不确定是否是一群人
目标存坐标存储在 pos 标签中,
4个值的含义分别是 左上角坐标x,y 目标w,h
"""
with open(txtpath,'r') as f:
info = f.readlines()
stap = 7
label_dict = {}
N = (len(info)-3)//7
for i in range(N):
info_ = info[3+stap*i : 3+ stap*(i+1)]
occl = info_[5][6:-3].split(" ")
lock = info_[6][6:-3].split(" ")
posv = info_[4][6:-3].split(";")
pos = info_[3][6:-3].split(";")
label =info_[2].split(" ")[0][5:-1]
strr =int(info_[2].split(" ")[1][4:])
end =int(info_[2].split(" ")[2][4:])
for idx ,frameid in enumerate(range(strr,end+1)):
label_ ={}
label_['frame'] = str(frameid)
label_['label'] = str(label)
label_['pos'] = pos[idx]
label_['posv'] = posv[idx]
label_['lock'] = lock[idx]
label_['occl'] = occl[idx]
if str(frameid) not in list(label_dict.keys()):
label_dict[str(frameid)] = [label_]
else:
label_dict[str(frameid)].append(label_)
return label_dict
3. Teledyne 红外免费数据集(FREE Teledyne FLIR Thermal Dataset)
3.1 数据集简介
Teledyne FLIR ADAS 免费数据集为使用CNN的物体检测系统的开发提供了完全注释的热和可见光谱帧。构建这些数据是为了鼓励对可见光+热传感器融合算法(“RGBT”)的研究,并使汽车界能够创建更安全、更高效的ADAS和无人驾驶汽车系统。
总共有26442个完全注释的帧,其中包含15个不同对象类别的520000个边界框注释。
图像对数量:提供了10k张光-红外图像对。
图像对校正:图像对没有对准,需要在进行融合前进行校正。
数据集类型:多通道图像数据集,包含可见光和热成像数据。
适用研究领域:适用于图像融合算法的研究。
数据集组成:
总共有26442个完全注释的帧,其中包含15个不同对象类别的520000个边界框注释。
图像:9,711 张热成像图像和 9,233张RGB训练/验证图像。
视频:7,498 帧视频
标注:超过375000个标注
数据集格式:
Thermal - 14-bit TIFF (no AGC)
Thermal 8-bit JPEG (AGC applied)
RGB - 8-bit JPEG
MSCOCO formatted annotations (JSON)
Conservator formatted annotations (JSON)
3.2 标注类别
Person(行人)
Bike(自行车)
Car(汽车)
Motorcycle(摩托车)
Bus(公交车)
Train(火车)
Truck(卡车)
Traffic light(交通灯)
Fire Hydrant(消防栓)
Street Sign(街道标志)
Dog(狗)
Skateboard(滑板)
Stroller(婴儿车)
Scooter(电动车)
Other Vehicle(其他车辆)
3.3 下载链接
数据集下载链接
https://www.flir.com/oem/adas/adas-dataset-form/
4. LLVIP 数据集 (Low-Light Vision Infrared-Paired)
4.1 数据集简介
LLVIP 是一个用于低光视觉的可见红外配对数据集。使用双光谱摄像机以俯视的监控视角采集含大量行人及骑行者的街景得到的,其含有大量低光照场景下的图像。所有图像在时间和空间上都已严格对齐。
该数据集包括 24个黑暗场景、2个白天场景,共 30976张图像(15488对),其中12025对用于训练,3463对用于测试。
数据集对"行人"类别进行了标记,包含 41579 个’person’标签,其中train标签33648个,test标签7931个。同一对可见光和红外图像共享相同的标签,具有相同的名称。其中110423.xml为空白标签。
主要用于低光照条件下的计算机视觉任务,例如可见和红外图像融合、目标检测和图像到图像的转换。
数据集类型:可见光-红外数据集
应用目的:用于热红外和可见光行人检测
拍摄环境:大部分图像是在非常黑暗的场景下拍摄的
数据集特点:用于低光视觉的可见光-红外配对数据集
图像数量:包含30,976张图像
图像对齐:所有图像在时间和空间上都严格对齐
主要类别:行人
4.2 相关链接
参考论文:LLVIP: A Visible-infrared Paired Dataset for Low-light Vision
下载地址:LLVIP-Github,LLVIP-百度飞桨,paperscode
5. M3FD Dataset
5.1 数据集简介
M3FD数据集由大连理工大学软件学院创建,包含4200对校准后的红外和可见光图像,覆盖多种场景和像素变化,特别强调两种模式的广泛范围。数据集旨在支持对象检测任务,通过融合红外和可见光图像,提高检测精度和视觉质量。M3FD数据集的应用领域包括监控和自动驾驶等,旨在解决多模态图像融合和对象检测中的挑战。
数据集类型:热红外-可见光图像目标检测数据集
传感器配置:一个同步系统,包含一个双目光学摄像头和一个双目红外传感器。
图像总数:8400张图像用于融合、检测和基于融合的检测。600张独立场景图像用于融合。
图像格式:红外图像:24位灰度位图。可见光图像:24位彩色位图。
图像尺寸:大多数为1024 × 768像素。
配准情况:所有图像对都已配准。可见光图像通过使用同步系统的内部参数进行校准。红外图像通过齐次矩阵人为扭曲进行校准。
标注信息:34407个标记已手动标记。包含6种目标类别:People(人)、Car(汽车)、Bus(公交车)、Motorcycle(摩托车)、Lamp(灯)、Truck(卡车)
5.2 相关链接
数据集下载:Github dlut-dimt
研究论文:Target-aware Dual Adversarial Learning and a Multi-scenario Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection
6. KAIST Dataset
6.1 数据集简介
KAIST 多光谱行人数据集由取自车辆的95k个彩色热对(640x480,20Hz)组成,分别在白天和晚上捕获了包括校园、街道以及乡下的各种常规交通场景。KAIST数据集是由放置在行车顶部的红外及可见光相机采集的,通过激光分束器及相机标定程序,可尽量保证每对图像在空间上的对齐。
KAIST 数据集包括 95328 张图片,每张图片都包含RGB图像和红外图像两个版本。数据集总共分为12个文件夹set00-set11。前6个文件夹为训练集包含50187张图片,后6个文件夹为测试集包含45141张图片。
数据集的标签包含 person、people、cyclist 三个类别。共有 103,128 个密集注释和 1,182 个独特的行人。其中可明显看出是行人的被分为“Person”,不易被分辨的个体被分为“People”,骑着双轮车的人被看作“Cyclist”,即使普通人类也无法分辨为是否为行人的被分为“Person?”。注释包括边界框之间的时间对应关系。
主要应用于热红外和可见光的联合行人检测任务。
数据集应用:热红外和可见光的联合行人检测
图像总数:95328张图片
图像版本:每张图片包含RGB彩色图像和红外图像两个版本
注释总数:103128个密集注释
场景类型:校园、街道、乡下
场景特点:包括白天和晚上捕获的各种常规交通场景
图片大小:640×480像素
6.2 标签类别
person:比较好区分的个体
people:不太好分辨的多个个体
cyclist:骑行的人
person?:标注者无法明确区分是行人还是其他物体的区域
6.3 相关链接
参考论文:Multispectral Pedestrian Detection/CVPR15
下载地址:KAIST-Github, KAIST-OpenDataLab
7. RoadScene Dataset
7.1 数据集简介
该数据集有221对对齐的可见光和红外图像对,包含丰富的场景,如道路、车辆、行人等。这些图像是前视红外视频中极具代表性的场景。我们对原始红外图像中的背景热噪声进行预处理,精确对齐可见光和红外图像对,并裁剪出精确的配准区域以形成该数据集。
数据集特点:对齐的图片,没有语义标签。多通道图像数据集。
图像对数量:包含221对对齐良好的可见光(Vis)和红外(IR)图像对。
场景内容:包含丰富的场景,如道路、车辆、行人等。
图像预处理:对原始红外图像中的背景热噪声进行了预处理。精确对齐了可见光和红外图像对。裁剪出确切的配准区域。
7.2 下载链接
数据集下载:Github
论文下载:FusionDN: A Unified Densely Connected Network for Image Fusion, U2Fusion: A Unified Unsupervised Image Fusion Network
8. Freiburg Thermal Dataset
8.1 数据集简介
Freiburg Thermal Dataset 是一个用于红外(热成像)与可见光(RGB)多模态目标跟踪的数据集,通常用于计算机视觉和机器人领域的算法测试,尤其是在复杂光照条件下的目标跟踪研究。该数据集由弗莱堡大学(University of Freiburg)研究团队发布。
该数据集通过 5次白天 和 3次夜间 数据采集完成,时间跨度从夏季至冬季。涵盖高度多样化的驾驶场景,包括高速公路、人口密集的城区、居民区和乡村区域。数据集共包含 12,051张白天图像 和 8,596张夜间图像。
每张图像均包含 13种不同物体类别 的像素级语义标签,具体标注类别如下:
道路(Road)
人行道(Sidewalk)
建筑(Building)
路缘(Curb)
围栏(Fence)
杆柱/标志(Pole/Signs)
植被(Vegetation)
地形(Terrain)
天空(Sky)
行人/骑行者(Person/Rider)
汽车/卡车/巴士/火车(Car/Truck/Bus/Train)
自行车/摩托车(Bicycle/Motorcycle)
背景(Background)
8.2 下载链接
数据集下载:Freiburg Thermal Dataset, Github: heatnet
论文下载:HeatNet: Bridging the Day-Night Domain Gap in Semantic Segmentation with Thermal Images
9. TNO Dataset
9.1 数据集简介
TNO多波段图像集提供了不同军事和监视场景的增强视觉(390-700nm)、近红外(700-1000nm)和长波红外(8-12µm)夜间图像,显示了不同背景(如农村、城市)中的不同物体和目标(如人、车辆)。该数据集将有助于开发静态和动态图像融合算法、颜色融合算法、多光谱目标检测和识别算法以及弱目标检测算法。
包括 3个子集:
- The TNO Image Fusion Dataset
TNO图像融合数据集[1]包含不同军事和监视场景的增强视觉(390-700nm)、近红外(700-1000nm)和长波红外(8-12µm)夜间图像,显示了不同背景(如农村、城市)中的不同物体和目标(如人、车辆) - The Kayak Image Fusion Sequence (parts I and II)
多模式皮划艇图像融合序列[2]包含注册的视觉、近红外和长波红外图像序列,显示了三艘正在接近的皮划艇在杂乱的海上背景中。由于距离的变化,目标(皮划艇)从暗淡的点目标到易于区分的物体各不相同。 - The TRICLOBS Dynamic Multiband Image Dataset
TRICLOBS动态多波段图像数据集[3]包含城市环境中动态监控场景的注册视觉(400-700nm)、近红外(NIR,700-1000nm)和长波红外(LWIR,8-14µm)运动序列。为了实现开发或逼真的颜色重映射过程,数据集还包含三个场景中每个场景的彩色照片。该数据集是在三个不同地点的几次现场试验中收集的,包含代表不同军事和民用监视场景的16个运动序列。
9.2 相关链接
数据集下载:TNO_Image_Fusion_Dataset
论文下载:The TNO Multiband Image Data Collection
10. INO Dataset
10.1 数据集简介
数据集内容:包含多对在不同天气条件下捕获的场景视频。视频包括可见光和红外视频。
场景视频列表:Crossroads、Trees and runner、Visitor parking、Main entrance、Parking evening、Close person、Coat deposit、Multiple deposit、Backyard runner、 Group fight、Parking snow、Highway I、Lobby、Campus、Highway III
10.2 相关链接
数据集下载:Videos analytics dataset
11. 多光谱道路场景数据集(MSRS Dataset)
11.1 数据集简介
基于MFNet数据集构建了一个新的红外和可见光图像融合多光谱数据集。MFNet数据集包含1569个图像对(820个白天拍摄,749个夜间拍摄),空间分辨率为480×640。然而,MFNet数据集中存在许多未对齐的图像对,大多数红外图像的信噪比和对比度都很低。
多光谱道路场景(MSRS)数据集包含1444对高质量的对齐红外和可见光图像。
11.2 相关链接
论文下载:SuperFusion: A Versatile Image Registration and Fusion Network with Semantic Awareness
数据集下载:Github
12. LSOTB-TIR Dataset
12.1 数据集简介
LSOTB-TIR 室一种大规模、高多样性的统一TIR单目标跟踪基准,由一个跟踪评估数据集和一个通用训练数据集组成,总共有1416个TIR序列和643K多帧。
我们在所有序列的每一帧中注释对象的边界框,总共生成了770K多个边界框。
我们将评估数据集分为短期跟踪子集和长期跟踪子集,以使用不同的范式评估跟踪器。
为了在不同属性上评估跟踪器,我们还在短期跟踪评估子集中定义了四个场景属性和12个挑战属性。
我们对LSOTB-TIR上的40个跟踪器进行了评估和分析,以提供一系列基线,并为TIR目标跟踪提供了一些见解和未来的研究方向。
代码和数据集可在 https://github.com/QiaoLiuHit/LSOTB-TIR 获得
数据集类型:热红外目标跟踪数据集
图像序列数量:总共包含1,416个热红外(TIR)图像序列
总帧数:超过64.3万帧图像
注释信息:所有序列中每一帧的对象都进行了边界框注释、总共生成了超过77万个边界框
12.2 相关链接
数据集下载:Github-LSOTB-TIR
论文下载:LSOTB-TIR: A Large-Scale High-Diversity Thermal Infrared Single Object Tracking Benchmark
13. MFNet(multispectral semantic segementation dataset)
13.1 数据集简介
MFNet 是第一个具有像素级注释的RGB Thermal城市场景图像数据集。MFNet数据集构建了一个新的多光谱数据集,用于红外和可见光图像融合。
该数据集包含1569张图像(820张白天拍摄,749张夜间拍摄)。
该数据集中标记了驾驶过程中常见的八类障碍物(汽车、人、自行车、弯道、停车位、护栏、色锥和颠簸)。
13.2 相关链接
论文下载:MFNet: Towards real-time semantic segmentation for autonomous vehicles with multi-spectral scenes
数据集下载:Github-MFNet, paperswithcode
14. SIRST(Single-frame InfraRed Small Target)
14.1 数据集简介
该数据集名为SIRST-UAVB,提供使用中波红外相机在3-5μm波长范围内捕获的红外图像,分辨率为640×512像素,拍摄距离为100至800米。该数据集主要以小目标为特征,占总数据的94.3%,包括无人机(UAV)和鸟类。这些目标是在天空、云层、建筑物和植被等复杂背景下呈现的,这些背景带来了重大挑战。低信噪比(SNR)、低信杂比(SCR)和大量背景噪声的组合使检测更加复杂,因为目标很容易被环境杂波遮挡。
图像选择:从数百个序列中抽取最具代表性的图片。每个红外序列中只选取一幅代表图像。
标注形式:图像目标有5种标注形式,适应不同检测模型。
支持任务:图像分类、实例分割、边界框回归、语义分割、实例点识别
图像和目标数量:427张红外图像、480个目标
14.2 相关链接
数据集下载:paperswithcode, Github
论文下载:Asymmetric Contextual Modulation for Infrared Small Target Detection
15. MDvsFA-cGAN
15.1 数据集简介
红外小目标分割(ISOS)的一个关键挑战是平衡漏检(MD)和误报(FA)。提出了一种深度对抗学习框架,将任务分解为由两个对抗训练的模型处理的两个子任务,每个模型都专注于减少MD或FA。
通过采集真实红外图像并生成合成数据来验证所提模型的有效性。真实红外图像来自两个定制化的小目标数据集,分别命名为"AllSeqs"和"Single":
- AllSeqs数据集:包含11段真实红外序列,共计2098帧图像
- Single数据集:包含100张独立的真实红外图像,涵盖不同类别的小目标
为进一步扩充数据规模,我们还生成了合成红外图像:首先从网络收集高分辨率红外自然场景图像作为背景库,通过裁剪形成多样化背景;然后将从真实图像分离的小目标或二维高斯函数合成的目标叠加到背景上。
15.2 相关链接
论文下载:Miss Detection vs. False Alarm: Adversarial Learning for Small Object Segmentation in Infrared Images
数据集下载:Github-MDvsFA
16. IRSTD-1k Dataset
16.1 数据集简介
红外弱小目标检测和分割数据集会呈现“弱”与“小”的特点,其中“弱”指的是目标信噪比低、与背景之间的对比度差、红外辐射强度弱;而“小”指的是目标像素少,检测时难以获得纹理信息。
IRSTD-Ik数据集提供了1,000个具有各种目标形状、不同目标大小和丰富杂波背景的真实图像,该背景具有精确的像素级注释。该数据集分为两个文件夹,IRSTD1k_Img存放真实图像,IRSTD1k_Label存放标签mask。
目标类型:包含多种不同类型的小目标,如:无人机、生物、船只、车辆
背景包括:海洋、河流、田野、山区、城市、含有大量杂波和噪声的云层
16.2 相关链接
数据集下载:Github-IRSTD-1k
论文下载:ISNet: Shape Matters for Infrared Small Target Detection
17. BU-TIV (Thermal Infrared Video)
17.1 数据集简介
BU-TIV 是一个热红外视频基准数据集,旨在解决多种视觉分析任务,包括目标检测、跟踪及计数,尤其针对低分辨率下的行人和蝙蝠。数据集包含6万帧,涵盖多视角和高密度场景。
TIV benchmark测试涵盖了五项常见的计算机视觉任务:
- 混乱背景下跟踪单个对象;
- 从单个视图跟踪多个对象;
- 从多个视图跟踪多个对象;
- 视觉计数;
- 群体运动估计。
TIV 数据集包含 7 个不同的场景,其中 2 个是室内场景。包括63,782帧 图像,记录了数千个对象。
TIV 数据集中包含的对象类别是:行人,马拉松运动员,自行车,车辆和飞行动物
17.2 相关链接
数据集下载:BUTIV
论文下载:A Thermal Infrared Video Benchmark for Visual Analysis
18. DUT-VTUAV Dataset
18.1 数据集简介
建了一个大规模、高多样性的可见光-热成像无人机追踪基准数据集(VTUAV),包含500个序列共计170万对高分辨率(1920×1080像素)的双模态图像帧。
该数据集不仅涵盖了丰富的目标类别和场景,还支持全面的应用评估,包括:短期追踪,长期追踪,分割掩模预测。
该数据集提出了13个挑战,也就是上文说到的目标模糊(TB)、摄像机运动(CM)、极端照明(EI)、变形(DEF)、部分遮挡(PO)、完全遮挡(FO)、尺度变化(SV)、热交叉(TC)、快速移动(FM)、背景聚类(BC)、视野外(OV)、低分辨率(LR)和热可见分离(TVS)。
大规模:收集了近170万个对齐良好的RGB-T图像对,包含500个序列,以展示RGB-T跟踪的强大功能(迄今为止最大的RGB-T跟踪基准)。
多样性高:13个子类和15个场景横跨2个城市。
多任务评估:我们的基准旨在评估短期跟踪、长期跟踪和分段跟踪。
分层属性注释:13个典型挑战的序列级属性注释。此外,我们还为训练具有挑战意识的跟踪器提供了帧级属性。
18.2 相关链接
数据集下载:DUT-VTUAV
论文下载:VTUAV–Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline
20. OTCBVS Dataset
OTCBVS Dataset (Ohio State University Benchmark Collection for Visual Surveillance)是由俄亥俄州立大学(Ohio State University)发布的一系列用于视觉监控研究的多模态数据集,主要包含红外(IR)和可见光(RGB)图像数据,适用于目标检测、跟踪、多模态融合等计算机视觉任务。
OCTCBVS 数据集包含 4个子数据集,其中:1、4、5、6、7、9、11 是红外数据集;8 有声音、可见光和EPI,没有红外;其他是可见光和红外数据集。
- OSU Thermal Pedestrian Database
俄亥俄州立大学校园的人行横道
图像数量:284
图像格式:8位灰度位图
图像大小:360 x 240像素
下载链接:OTCBVS-1
- IRIS Thermal/Visible Face Database
IRIS热/可见人脸数据库
图像大小:320 x 240像素(可见光和热成像)
图像数量:4228对热和可见光图像,
图像内容:176-250张图片/人,每次旋转11张图片(每个表情和每个照明的姿势),30个人-表情、姿势和照明
表情:ex1、ex2、ex3——惊讶、大笑、愤怒(各种姿势),照明:朗(左灯亮)、罗恩(右灯亮),2开(两盏灯都亮),黑暗(暗室),关闭(左右灯都关),各种姿势
下载链接:[OTCBVS-2](http://vcipl-okstate.org/pbvs/bench/Data/02/download.html)
- OSU Color-Thermal Database
俄亥俄州立大学校园繁忙的十字路口
图像数量:17089
图像格式:热敏:8位灰度位
研究主题:颜色和热成像图像的融合,基于融合的颜色和热成像图像的对象检测
图像尺寸:320 × 240像素
图像配准:使用手动选择的点通过单应性将彩色/热成像图像配准
下载链接:[OTCBVS-3](http://vcipl-okstate.org/pbvs/bench/Data/03/download.html)
- Terravic Facial IR Database
研究主题:热成像面部分析
热序列数量:20个不同的热成像序列。
变化情况:包含不同的面部朝向(正面、左侧、右侧)和环境条件(室内/室外),以及不同的装饰(戴眼镜、戴帽子)。
图像格式:8位灰度JPEG,适用于热成像数据的存储和展示。
图像尺寸:320 × 240像素,提供足够的分辨率以进行面部特征分析。
下载链接:OTCBVS-4
- Terravic Motion IR Database
研究主题:检测和跟踪:利用热成像技术进行目标的检测与跟踪。
热序列数量:共18个不同的热成像序列。
场景分类:室外运动和跟踪场景,室外房屋监控,室内走廊运动,飞机运动和跟踪,水下和近水面运动,平静背景运动。
图像格式:8位灰度JPEG,适合热成像数据的存储和展示。
图像尺寸:320 × 240像素,提供足够的分辨率以进行目标检测和跟踪。
下载链接:OTCBVS-5
- Terravic Weapon IR Database
利用热成像进行武器探测和武器放电探测
热序列数量:共5个不同的热成像序列。武器存在检测场景:1个序列,武器发射检测场景:4个序列。
图像格式:8位灰度JPEG,适合热成像数据的存储和展示。
图像尺寸:320 × 240像素,提供足够的分辨率以进行目标检测和分析。
下载链接:OTCBVS-6
- CBSR NIR Face Dataset
研究主题:近红外面部检测,近红外眼部检测,近红外面部识别。
图像数量:共197人的3940张近红外面部图像。
图像尺寸:480×640像素,8位,未压缩。
图像集合:图像被分为两个集合:画廊集合,探针集合。
下载链接:OTCBVS-7
- Audio-Visual Vehicle (AVV) Dataset
在各种具有挑战性的条件下(遮挡、运动模糊、各种透视图)对地面移动车辆进行检测和分类。
961套多式联运车辆样本来自当地道路(25米)和高速公路(55米)。
每组样本有三个文件:一个音频剪辑(单声道22.5kHz,16位)、一个原始图像拍摄和一个重建的视觉图像。
主要类别,自行车、公共汽车、摩托车、双门轿车、四门轿车、皮卡、普通卡车、小型货车、普通货车和混合动力车。
下载链接:OTCBVS-8
- CSIR-CSIO Moving Object Thermal Infrared Imagery Dataset (MOTIID)
热红外图像中的运动物体(行人、车辆等)检测
热序列数:18
移动目标类型:两种不同型号的四轮车(Ambassador和Innova)、三轮车(自动人力车)、两轮车(摩托车)和人在不同距离行走、遛狗和观鸟
图像大小:640 x 480像素
下载链接:OTCBVS-9
- Pedestrian Infrared/visible Stereo Video Dataset
在红外和可见光立体视频中对近距离行人进行空间定位和特征提取。
视频对数量:共四个红外-可见光视频对。
帧数范围:每个视频对的帧数在100到4400帧之间,提供不同长度的视频序列。
分辨率:视频的分辨率为480 × 360像素,适合立体视觉分析。
下载链接:OTCBVS-10
- Thermal Infrared Video Benchmark for Visual Analysis
红外视频中单/多视图目标检测、计数和跟踪。
基准测试规模:包括超过60,000帧。
视觉任务类型:跟踪低分辨率下单个行人,跟踪低分辨率下的单个飞行蝙蝠,跟踪多个对象(行人、汽车、自行车、摩托车),跟踪多个飞行蝙蝠,从多个视图跟踪多人的平面运动,从三个视图以3D方式跟踪多个飞行蝙蝠,在高密度下计算飞行蝙蝠的数量
下载链接:OTCBVS-11
- Maritime Imagery in the Visible and Infrared Spectrums
VAIS 数据集包含从码头同时采集的船舶热和可见光图像,用于船舶目标分类。
总图像数量:2865张。红外图像数量:1242张,可见光图像数量:1623张。图像对数量:1088对。
独特船只数量:264艘。夜间红外图像数量:154张。
基础类别数量:6个。
细粒度类别数量:15个。
下载链接:OTCBVS-12
- ContactDB: Analyzing and Predicting Grasp Contact via Thermal Imaging
研究在抓取家用物品过程中手与物体的接触方式。
ContactDB 是一个新的家用物体接触图数据集,通过使用热像仪捕捉抓握过程中丰富的手部物体接触。我
ContactDB 包括3750个3D网格,由50个家庭对象组成,这些对象用接触图进行纹理处理,以及375K帧同步的RGB-D+热图像。
下载链接:OTCBVS-13
- DIAST Variability Illuminated Thermal and Visible Ear Image Dataset
利用热成像和可见光图像进行耳朵的识别研究。
在可见光和热域中捕获的耳朵图像数据集。耳朵数据集由2200张图像组成,这些图像是在5种不同的光照条件下从55名受试者身上拍摄的。
图像总量:2200张图像,1100张可见光图像(左耳550张,右耳550张),1100张热成像图像(左耳550张,右耳550张)。
下载链接:OTCBVS-14
- M3FD: A Multi-scenario Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection
红外与可见光图像的融合,基于融合的目标检测,红外和可见物体检测
图像总数:8400(用于融合、检测和基于融合的检测),600(独立场景融合)
图像对总数:4200(用于融合、检测和基于融合的检测),300(独立场景融合)
图像格式:红外:8位灰度位图,可见:24位彩色位图
图像大小:1024 x 768像素(大部分)
标签:34407个标签已手动标记,包含6种目标:{人、汽车、公共汽车、摩托车、灯、卡车}。
下载链接:OTCBVS-15
更多内容,详见:海量数据集,https://www.cvmart.net/dataSets
推荐综述文章:
Yang, Kaixuan et al. “A review on infrared and visible image fusion algorithms based on neural networks.” J. Vis. Commun. Image Represent. 101 (2024): 104179.
A review on infrared and visible image fusion algorithms based on neural networks
【本节完】
版权声明:
转发请注明原文链接:
20个红外目标检测数据集
Copyright 2024 youcans, XUPT
Crated:2024-08-20