1. Robust Consistent Video Depth Estimation
这篇文章提到的Sintel Depth深度数据集,提供RGB和深度图像、相机的内参和外参、读写深度图的SDK。
2 数据集:Replica and Matterport3D datasets
论文:Beyond Image to Depth: Improving Depth Prediction using Echoes
GitHub - niessner/Matterport: Matterport3D is a pretty awesome dataset for RGB-D machine learning tasks :)https://github.com/niessner/Matterport这两个数据集都包含了室内场景。Replica datasets包括酒店、公寓、房间和办公室,包含90个场景。
3 数据集:Pano3D
论文:Pano3D: A Holistic Benchmark and a Solid Baseline for Depth Estimation
Pano3D是一种新的基于球形全景图的深度估计基准。它旨在评估所有深度估计特征的性能,主要的直接深度估计性能目标精度和准确性,以及次要特征、边界保持和平滑度。
4 数据集:MAI
论文:Fast and Accurate Single-Image Depth Estimation on Mobile Devices
Mobile AI深度估计挑战数据集提供的图像与深度映射对应关系。它由8K样本组成,这些样本是在户外环境中使用用于彩色图像和深度图收集的zed相机获得的。它们都有VGA分辨率(640x480),与手机摄像头相比,这是相当低的。RGB图像被收集为常规的8位照片,而深度图被表示为16位图像,提供了足够的位深度,以表示ZED-camera传感器在8m以下的精度为0.2m。
链接:
GitHub - zhyever/MobileAI_Depth_Estimation_AIIAContribute to zhyever/MobileAI_Depth_Estimation_AIIA development by creating an account on GitHub.https://github.com/zhyever/MobileAI_Depth_Estimation_AIIA5 数据集:Megadepth dataset
论文:MegaDepth: Learning Single-View Depth Prediction from Internet Photos
Megadepth数据集是用于单眼深度估计问题的最大数据集之一,共有130K幅图像,其中100K幅为深度图,30K幅为序数图。序数图像简单地表示同一图像中两个上下文对象之间的相对深度顺序。他们从互联网上不同位置拍摄的照片数据集中收集图像,并使用经典的方法进行3D估计,如多视立体(MVS)和运动结构(SfM)。基于对MVS问题应用更保守的约束和语义过滤,在多个阶段对异常值进行过滤。他们对前景、背景和天空对象进行分类,自动消除语义不一致的像素。深度图是部分密集的,因为它们以图像中存在大的连续有效像素的方式进行过滤。然而,大多数图像都有很大一部分无效像素被掩盖了。而且,所有的彩色照片都是从网上收集来的,所以质量令人怀疑。因此,动态模糊、噪声和照片中缺乏细节是该数据集中的常见问题,这些问题会在3D重建过程中传播不准确性。
链接:
论文:Indoor segmentation and support inference from rgbd images
作为第一个收集图像密度深度样本的数据集,NYU数据集一直是一个受欢迎的选择。他们的主要目的是获取数据,以了解三维环境中的表面及其相互作用。但是,数据集的一部分与具有相应深度映射的图像相对应。它是从微软Kinect设备的视频记录中收集的,包括一个RGB源和一个基于结构光的深度源。由于视频不是静态的,图像的数量被严重地修剪为1449个图像深度对应(同步)。这些图像的分辨率是VGA (640×480),和MAI一样,如果我们把它们与当前手机的相机分辨率相比,是相当低的。此外,由于该数据集提供的样本数量较少,深度学习方法经常过拟合。该数据集仅代表室内环境,由于图像分布的方差较低,室内环境通常比室外更容易学习。
链接:
NYU Depth V2 « Nathan Silbermanhttps://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html#raw_parts7 数据集:Make3D
论文:Make3d: Learning 3d scene structure from a single still image
该数据集是单幅图像深度估计的先驱。它包含534张图像,400次训练和134次测试。图片有一个恒定的大小2272×1704,这是现代手机相机的代表。但是,深度图的分辨率非常低,详细的结构(305×55),因为它们是用定制的3D激光扫描仪收集的。此外,图像收集在各种相似的户外场景,给定一定程度的数据集分布方差。不幸的是,这个数据集的大小大大减少了,虽然在早期的方法中它被用于训练,但在后来的作品中,它主要用于泛化检验。
链接:
Make3D --- Range Image Datasethttp://make3d.cs.cornell.edu/data.html8 数据集:Cityscapes
论文:The cityscapes dataset for semantic urban scene understanding
用于语义分割的Cityscapes数据集包含了从50个不同城市收集的一系列图像。这个数据集的每个实例都包含一个语义标记的立体视觉对。因此,为了进行深度预测,通常不考虑语义标签,而使用立体对来检索深度信息。每张图片的分辨率为1024×2048,加起来总共有20K帧。大多数无监督和自我监督方法使用这个数据集。
链接:
Cityscapes Dataset – Semantic Understanding of Urban Street Sceneshttps://www.cityscapes-dataset.com/9 数据集:KIITTI
论文:Sparsity invariant cnns
作为最著名的自动驾驶数据集,KITTI提供图像及其对应的密集深度图。深度图是通过将激光雷达传感器扫描到的点投影到校准的相机帧中获得的。即使使用的激光雷达传感器是高分辨率的,获得的深度图仍然是稀疏的,并且遗漏了一些通常通过插值或稀疏监督来处理的细节。该数据集总共提供了93k个样本,对应56个场景,分辨率为1224×368。此外,该算法还具有地面真实姿态序列,可用于自动驾驶的视觉测程和立体学习等不同几何任务的基准测试。
链接:
论文:3d packing for self-supervised monocular depth estimation(CVPR2020)
自动驾驶密集深度(density Depth for Autonomous Driving, DDAD)的收集设置与KITTI类似,但是在美国和日本多个城市的车队上收集的。这些样本包含了围绕汽车360度的单眼图像,以及覆盖相同范围的高密度激光雷达扫描。投影到每个图像的深度图并不密集,实际上它们比KITTI更稀疏。然而,图片尺寸为1936×1216的图片质量和分辨率更高。此外,不同方向的摄像头提供了KITTI所缺乏的不同街道视角。总的来说,它提供了16600个样本,每个样本包含6张图像和360度同步激光雷达扫描,可以投影到每个图像帧。
链接:
https://github.com/TRI-ML/DDAD/https://github.com/TRI-ML/DDAD/11 数据集:nuScenes
论文:nuscenes: A multi-modal dataset for autonomous driving(CVPR2020)
nuScenes数据集编译了一系列与自动驾驶相关的流。它是公共数据集,在它的域中收集最多的数据流。它包括360度覆盖车辆周围的摄像头,激光雷达传感器和雷达。此外,它还包括23个语义类的3D位置,呈现在每个场景周围。该数据集收集93k完全注释的图像,它们也形成13个样本序列。这些图像的分辨率为1600×900,激光雷达扫描可以投影到图像上,尽管得到的深度图非常稀疏。由于激光扫描仪只有32束,这意味着非常有限的垂直分辨率。
链接:
https://www.nuscenes.org/nuscenes#overviewhttps://www.nuscenes.org/nuscenes#overview
12 数据集:PhoneDepth Dataset
论文:PhoneDepth: A Dataset for Monocular Depth Estimation on Mobile Devices
该数据集采用价值4000元的专业ZED stereo camera采集。