【计算机视觉 | 图像分类】图像分类常用数据集及其介绍（二）

最新推荐文章于 2025-02-22 22:46:04 发布

旅途中的宽~

最新推荐文章于 2025-02-22 22:46:04 发布

阅读量5.1k

点赞数

分类专栏：图像分类数据集文章标签：计算机视觉分类人工智能

本文链接：https://blog.csdn.net/wzk4869/article/details/133106504

版权

图像分类数据集专栏收录该内容

14 篇文章

订阅专栏

文章目录

一、Oxford 102 Flower (102 Category Flower Dataset)

Oxford 102 Flower 是一个由 102 个花卉类别组成的图像分类数据集。这些花被选为英国常见的花。每个类别由 40 到 258 张图像组成。

这些图像具有较大的比例、姿势和光线变化。此外，还存在类别内差异较大的类别以及几个非常相似的类别。

在这里插入图片描述

二、Tiny ImageNet

Tiny ImageNet 包含 200 个类别的 100000 张图像（每个类别 500 个），缩小为 64×64 彩色图像。每个类有 500 个训练图像、50 个验证图像和 50 个测试图像。

在这里插入图片描述

三、Stanford Cars

斯坦福汽车数据集包含 196 类汽车，总共 16,185 张从后方拍摄的图像。数据几乎被分为 50-50 个训练/测试部分，其中包含 8,144 个训练图像和 8,041 个测试图像。类别通常位于品牌、型号、年份级别。图像尺寸为 360×240。

在这里插入图片描述

四、Places205

Places205数据集是一个以场景为中心的大规模数据集，包含205个常见场景类别。训练数据集包含来自这些类别的大约 2,500,000 张图像。在训练集中，每个场景类别具有最少 5,000 张和最多 15,000 张图像。验证集包含每个类别 100 张图像（总共 20,500 张图像），测试集包含每个类别 200 张图像（总共 41,000 张图像）。

在这里插入图片描述

五、DTD (Describable Textures Dataset)

可描述纹理数据集 (DTD) 包含 5640 个野外纹理图像。它们具有受纹理感知特性启发的以人为中心的属性注释。

在这里插入图片描述

六、Food-101

Food-101 数据集包含 101 个食物类别，每个类别有 750 张训练图像和 250 张测试图像，总共 101k 张图像。测试图像的标签已被手动清理，而训练集包含一些噪声。

在这里插入图片描述

七、iNaturalist

iNaturalist 2017 数据集 (iNat) 包含来自 5,089 个自然细粒度类别的 675,170 张训练和验证图像。这些类别属于13个超级类别，包括Plantae（植物）、Insecta（昆虫）、Aves（鸟类）、Mammalia（哺乳动物）等。 iNat 数据集高度不平衡，每个类别的图像数量差异很大。例如，最大的超类别“Plantae（植物）”有来自 2,101 个类别的 196,613 张图像；而最小的超类别“原生动物”只有 4 个类别的 381 张图像。

在这里插入图片描述

八、Caltech-256

Caltech-256 是一个对象识别数据集，包含 30,607 个不同大小的真实世界图像，涵盖 257 个类别（256 个对象类别和一个额外的杂波类别）。每个类别至少由 80 张图像表示。该数据集是 Caltech-101 数据集的超集。

在这里插入图片描述

九、PASCAL VOC (PASCAL Visual Object Classes Challenge)

PASCAL Visual Object Classes (VOC) 2012 数据集包含 20 个对象类别，包括车辆、家庭、动物和其他：飞机、自行车、船、公共汽车、汽车、摩托车、火车、瓶子、椅子、餐桌、盆栽植物、沙发、电视/显示器、鸟、猫、牛、狗、马、羊和人。该数据集中的每个图像都有像素级分割注释、边界框注释和对象类注释。该数据集已广泛用作对象检测、语义分割和分类任务的基准。 PASCAL VOC 数据集分为三个子集：1,464 个用于训练的图像、1,449 个用于验证的图像和一个私有测试集。

在这里插入图片描述

十、FGVC-Aircraft

FGVC-Aircraft 包含 10,200 张飞机图像，其中 102 种不同的飞机模型变体各有 100 张图像，其中大多数是飞机。每幅图像中的（主）飞机都用紧密边界框和分层飞机模型标签进行注释。飞机模型按四级层次结构组织。这四个级别从细到粗分别是：

型号，例如波音 737-76J。由于某些模型在视觉上几乎无法区分，因此在评估中不使用该级别。
变体，例如波音 737-700。一种变体将所有视觉上无法区分的模型合并为一类。该数据集包含 102 个不同的变体。
家庭，例如波音 737。该数据集包含 70 个不同的系列。
制造商，例如波音。该数据集包含 41 个不同的制造商。数据分为三个大小相等的训练、验证和测试子集。

在这里插入图片描述

十一、tieredImageNet

tieredImageNet 数据集是 ILSVRC-12 的较大子集，包含 608 个类（779,165 个图像），在 ImageNet 人工管理的层次结构中分为 34 个更高级别的节点。这组节点被划分为 20、6 和 8 个不相交的训练、验证和测试节点集，相应的类形成各自的元集。正如 Ren 等人所争论的那样。（2018），ImageNet 层次结构根部附近的这种分裂导致了更具挑战性但更现实的制度，其中测试类与训练类不太相似。

在这里插入图片描述