文章目录
- 一、ModaNet
- 二、SKU110K
- 三、SceneNet
- 四、VT5000
- 五、Washington RGB-D
- 六、Argoverse-HD
- 七、CADC (Canadian Adverse Driving Conditions)
- 八、ELEVATER (Evaluation of Language-augmented Visual Task-level Transfer)
- 九、MALF (Multi-Attribute Labelled Faces)
- 十、TinyPerson
- 十一、UVO (Unidentified Video Objects: A Benchmark for Dense, Open-World Segmentation)
- 十二、EORSSD (Extended Optical Remote Sensing Saliency Detection)
- 十三、MSeg
- 十四、OpenImages-v6
- 十五、RADIATE (RAdar Dataset In Adverse weaThEr)
一、ModaNet
ModaNet 是一个街头时尚图像数据集,由与 RGB 图像相关的注释组成。 ModaNet 为每个图像提供多个多边形注释。 每个多边形都与 13 个元时尚类别的标签相关联。 注释基于 PaperDoll 图像集中的图像,该图像集中只有几百张由基于超像素的工具注释的图像。

二、SKU110K
Sku110k 数据集提供了 11,762 张图像,其中包含在密集场景中捕获的超过 170 万个带注释的边界框,其中包括 8,233 张用于训练的图像、588 张用于验证的图像以及 2,941 张用于测试的图像。 总共约有 1,733,678 个实例。 这些图像是从数千家超市商店收集的,具有不同的比例、视角、照明条件和噪音水平。 所有图像的大小都调整为一百万像素的分辨率。 数据集中的大多数实例都是紧密堆积的,并且通常具有 [−15∘, 15∘] 范围内的某个方向。

本文介绍了15个目标检测数据集,包括ModaNet的时尚图像,SKU110K的密集场景,SceneNet的合成室内场景,VT5000的RGBT图像,Washington RGB-D的室内物体,Argoverse-HD的实时对象检测,CADC的恶劣驾驶条件,ELEVATER的语言图像模型,MALF的多属性面部,TinyPerson的微小物体,UVO的开放世界分割,EORSSD的遥感显着性,MSeg的多领域语义分割,OpenImages-v6的大规模图像,以及RADIATE的恶劣天气雷达数据。
订阅专栏 解锁全文
395

被折叠的 条评论
为什么被折叠?



