【计算机视觉 | 图像分类】图像分类常用数据集及其介绍（五）

最新推荐文章于 2024-06-25 09:47:44 发布

旅途中的宽~

最新推荐文章于 2024-06-25 09:47:44 发布

阅读量2.1k

点赞数 1

分类专栏：图像分类数据集文章标签：计算机视觉分类人工智能

本文链接：https://blog.csdn.net/wzk4869/article/details/133124783

版权

图像分类数据集专栏收录该内容

14 篇文章 14 订阅

订阅专栏

文章目录

一、ImageNet-O

ImageNet-O 由 ImageNet-1k 数据集中未找到的类图像组成。它用于测试视觉模型对分布外样本的鲁棒性。它是使用 AUPR 指标来报告的。

在这里插入图片描述

二、PlantVillage

PlantVillage 数据集包含 54303 张健康和不健康的叶子图像，按物种和疾病分为 38 个类别。

在这里插入图片描述

三、CIFAR-10N (Real-World Human Annotations)

这项工作提出了两个新的基准数据集（CIFAR-10N、CIFAR-100N），为 CIFAR-10 和 CIFAR-100 的训练数据集配备了我们从 Amazon Mechanical Turk 收集的人工注释的真实世界噪声标签。

四、DVS128 Gesture

包含 3 种照明条件下 29 名受试者的 11 种手势类别。

五、MINC (Materials in Context Database)

MINC 是一个大规模、开放的野外材料数据集。

在这里插入图片描述

六、BigEarthNet

BigEarthNet 由 590,326 个 Sentinel-2 图像块组成，每个图像块都是 i) 10m 带的 120x120 像素的一部分； ii) 20m 波段的 60x60 像素； iii) 60m 波段的 20x20 像素。

七、Oxford-IIIT Pet Dataset

Oxford-IIIT 宠物数据集有 37 个类别，每个类别大约有 200 张图像。这些图像在比例、姿势和灯光方面有很大的变化。所有图像都有相关的品种、头部 ROI 和像素级三图分割的地面实况注释。

在这里插入图片描述

八、MultiMNIST

MultiMNIST 数据集是从 MNIST 生成的。训练和测试是通过将一个数字叠加在同一组（训练或测试）但不同类别的另一个数字之上来生成的。每个数字在每个方向最多移动 4 个像素，从而生成 36×36 的图像。考虑到 28×28 图像中的数字被限制在 20×20 的框中，两个数字的边界框平均有 80% 的重叠。对于 MNIST 数据集中的每个数字，都会生成 1,000 个 MultiMNIST 示例，因此训练集大小为 60M，测试集大小为 10M。

在这里插入图片描述

九、PGM (Procedurally Generated Matrices (PGM))

PGM 数据集是研究模型中的抽象推理和泛化的工具。泛化是一种多方面的现象；模型没有单一、客观的方式可以或应该概括超出其经验。 PGM 数据集提供了一种以不同方式衡量模型泛化能力的方法，每种方式可能或多或少让研究人员感兴趣，具体取决于他们预期的训练设置和应用。

在这里插入图片描述

十、WOS (Web of Science Dataset)

Web of Science (WOS) 是一个文档分类数据集，包含 134 个类别的 46,985 个文档，其中包括 7 个父类别。

十一、CARS196

CARS196由196个类别的16,185张汽车图像组成。

十二、CIFAR-100N (Real-World Human Annotations)

十三、JFT-3B

JFT-3B 是 Google 内部数据集，也是 JFT-300M 数据集的更大版本。它由近 30 亿张图像组成，通过半自动管道用大约 30k 标签的类层次结构进行注释。换句话说，数据和相关标签是有噪声的。

十四、SUN Attribute

SUN 属性数据集由来自 717 个场景类别的 14,340 张图像组成，每个类别都用 102 个区分属性的分类法进行注释。该数据集可用于高级场景理解和细粒度场景识别。

在这里插入图片描述

十五、Open Images V4

Open Images V4 提供跨多个维度的大规模：19800 个概念的 3010 万个图像级标签、600 个对象类的 1540 万个边界框以及涉及 57 个类的 375k 视觉关系注释。特别是对于对象检测，提供的边界框比第二大数据集（190 万张图像上的 1540 万个框）多 15 倍。这些图像通常显示具有多个对象的复杂场景（平均每张图像 8 个带注释的对象）。它们之间的视觉关系被注释，这支持视觉关系检测，这是一项需要结构化推理的新兴任务。

在这里插入图片描述

十六、Tiny-ImageNet-C

Tiny-ImageNet-C 是一个开源数据集，包含应用于 Tiny-ImageNet (ImageNet-200) 测试集的算法生成的损坏（模糊、噪声）。

十七、Places365

Places365 数据集是场景识别数据集。它由 1000 万张图像组成，包含 434 个场景类。该数据集有两个版本：Places365-Standard，包含来自 K=365 场景类的 180 万个训练图像和 36000 个验证图像，以及 Places365-Challenge-2016，其中训练集的大小增加到 620 万个额外图像，包括 69 个新场景类别（来自 434 个场景类别的总共 800 万张列车图像）。

在这里插入图片描述