文章目录
- 一、ImageNet-O
- 二、PlantVillage
- 三、CIFAR-10N (Real-World Human Annotations)
- 四、DVS128 Gesture
- 五、MINC (Materials in Context Database)
- 六、BigEarthNet
- 七、Oxford-IIIT Pet Dataset
- 八、MultiMNIST
- 九、PGM (Procedurally Generated Matrices (PGM))
- 十、WOS (Web of Science Dataset)
- 十一、CARS196
- 十二、CIFAR-100N (Real-World Human Annotations)
- 十三、JFT-3B
- 十四、SUN Attribute
- 十五、Open Images V4
- 十六、Tiny-ImageNet-C
- 十七、Places365
- 十八、SUN397
一、ImageNet-O
ImageNet-O 由 ImageNet-1k 数据集中未找到的类图像组成。 它用于测试视觉模型对分布外样本的鲁棒性。 它是使用 AUPR 指标来报告的。
二、PlantVillage
PlantVillage 数据集包含 54303 张健康和不健康的叶子图像,按物种和疾病分为 38 个类别。
三、CIFAR-10N (Real-World Human Annotations)
这项工作提出了两个新的基准数据集(CIFAR-10N、CIFAR-100N),为 CIFAR-10 和 CIFAR-100 的训练数据集配备了我们从 Amazon Mechanical Turk 收集的人工注释的真实世界噪声标签。
四、DVS128 Gesture
包含 3 种照明条件下 29 名受试者的 11 种手势类别。
五、MINC (Materials in Context Database)
MINC 是一个大规模、开放的野外材料数据集。
六、BigEarthNet
BigEarthNet 由 590,326 个 Sentinel-2 图像块组成,每个图像块都是 i) 10m 带的 120x120 像素的一部分; ii) 20m 波段的 60x60 像素; iii) 60m 波段的 20x20 像素。
七、Oxford-IIIT Pet Dataset
Oxford-IIIT 宠物数据集有 37 个类别,每个类别大约有 200 张图像。 这些图像在比例、姿势和灯光方面有很大的变化。 所有图像都有相关的品种、头部 ROI 和像素级三图分割的地面实况注释。
八、MultiMNIST
MultiMNIST 数据集是从 MNIST 生成的。 训练和测试是通过将一个数字叠加在同一组(训练或测试)但不同类别的另一个数字之上来生成的。 每个数字在每个方向最多移动 4 个像素,从而生成 36×36 的图像。 考虑到 28×28 图像中的数字被限制在 20×20 的框中,两个数字的边界框平均有 80% 的重叠。 对于 MNIST 数据集中的每个数字,都会生成 1,000 个 MultiMNIST 示例,因此训练集大小为 60M,测试集大小为 10M。
九、PGM (Procedurally Generated Matrices (PGM))
PGM 数据集是研究模型中的抽象推理和泛化的工具。 泛化是一种多方面的现象; 模型没有单一、客观的方式可以或应该概括超出其经验。 PGM 数据集提供了一种以不同方式衡量模型泛化能力的方法,每种方式可能或多或少让研究人员感兴趣,具体取决于他们预期的训练设置和应用。
十、WOS (Web of Science Dataset)
Web of Science (WOS) 是一个文档分类数据集,包含 134 个类别的 46,985 个文档,其中包括 7 个父类别。
十一、CARS196
CARS196由196个类别的16,185张汽车图像组成。
十二、CIFAR-100N (Real-World Human Annotations)
这项工作提出了两个新的基准数据集(CIFAR-10N、CIFAR-100N),为 CIFAR-10 和 CIFAR-100 的训练数据集配备了我们从 Amazon Mechanical Turk 收集的人工注释的真实世界噪声标签。
十三、JFT-3B
JFT-3B 是 Google 内部数据集,也是 JFT-300M 数据集的更大版本。 它由近 30 亿张图像组成,通过半自动管道用大约 30k 标签的类层次结构进行注释。 换句话说,数据和相关标签是有噪声的。
十四、SUN Attribute
SUN 属性数据集由来自 717 个场景类别的 14,340 张图像组成,每个类别都用 102 个区分属性的分类法进行注释。 该数据集可用于高级场景理解和细粒度场景识别。
十五、Open Images V4
Open Images V4 提供跨多个维度的大规模:19800 个概念的 3010 万个图像级标签、600 个对象类的 1540 万个边界框以及涉及 57 个类的 375k 视觉关系注释。 特别是对于对象检测,提供的边界框比第二大数据集(190 万张图像上的 1540 万个框)多 15 倍。 这些图像通常显示具有多个对象的复杂场景(平均每张图像 8 个带注释的对象)。 它们之间的视觉关系被注释,这支持视觉关系检测,这是一项需要结构化推理的新兴任务。
十六、Tiny-ImageNet-C
Tiny-ImageNet-C 是一个开源数据集,包含应用于 Tiny-ImageNet (ImageNet-200) 测试集的算法生成的损坏(模糊、噪声)。
十七、Places365
Places365 数据集是场景识别数据集。 它由 1000 万张图像组成,包含 434 个场景类。 该数据集有两个版本:Places365-Standard,包含来自 K=365 场景类的 180 万个训练图像和 36000 个验证图像,以及 Places365-Challenge-2016,其中训练集的大小增加到 620 万个额外图像, 包括 69 个新场景类别(来自 434 个场景类别的总共 800 万张列车图像)。
十八、SUN397
Scene UNderstanding (SUN) 数据库包含 899 个类别和 130,519 张图像。 有 397 个采样良好的类别,可评估众多最先进的场景识别算法。