【计算机视觉 | 图像分类】图像分类常用数据集及其介绍(二)

一、Oxford 102 Flower (102 Category Flower Dataset)

Oxford 102 Flower 是一个由 102 个花卉类别组成的图像分类数据集。 这些花被选为英国常见的花。 每个类别由 40 到 258 张图像组成。

这些图像具有较大的比例、姿势和光线变化。 此外,还存在类别内差异较大的类别以及几个非常相似的类别。

在这里插入图片描述

二、Tiny ImageNet

Tiny ImageNet 包含 200 个类别的 100000 张图像(每个类别 500 个),缩小为 64×64 彩色图像。 每个类有 500 个训练图像、50 个验证图像和 50 个测试图像。

在这里插入图片描述

三、Stanford Cars

斯坦福汽车数据集包含 196 类汽车,总共 16,185 张从后方拍摄的图像。 数据几乎被分为 50-50 个训练/测试部分,其中包含 8,144 个训练图像和 8,041 个测试图像。 类别通常位于品牌、型号、年份级别。 图像尺寸为 360×240。

在这里插入图片描述

四、Places205

Places205数据集是一个以场景为中心的大规模数据集,包含205个常见场景类别。 训练数据集包含来自这些类别的大约 2,500,000 张图像。 在训练集中,每个场景类别具有最少 5,000 张和最多 15,000 张图像。 验证集包含每个类别 100 张图像(总共 20,500 张图像),测试集包含每个类别 200 张图像(总共 41,000 张图像)。

在这里插入图片描述

五、DTD (Describable Textures Dataset)

可描述纹理数据集 (DTD) 包含 5640 个野外纹理图像。 它们具有受纹理感知特性启发的以人为中心的属性注释。

在这里插入图片描述

六、Food-101

Food-101 数据集包含 101 个食物类别,每个类别有 750 张训练图像和 250 张测试图像,总共 101k 张图像。 测试图像的标签已被手动清理,而训练集包含一些噪声。

在这里插入图片描述

七、iNaturalist

iNaturalist 2017 数据集 (iNat) 包含来自 5,089 个自然细粒度类别的 675,170 张训练和验证图像。 这些类别属于13个超级类别,包括Plantae(植物)、Insecta(昆虫)、Aves(鸟类)、Mammalia(哺乳动物)等。 iNat 数据集高度不平衡,每个类别的图像数量差异很大。 例如,最大的超类别“Plantae(植物)”有来自 2,101 个类别的 196,613 张图像; 而最小的超类别“原生动物”只有 4 个类别的 381 张图像。

在这里插入图片描述

八、Caltech-256

Caltech-256 是一个对象识别数据集,包含 30,607 个不同大小的真实世界图像,涵盖 257 个类别(256 个对象类别和一个额外的杂波类别)。 每个类别至少由 80 张图像表示。 该数据集是 Caltech-101 数据集的超集。

在这里插入图片描述

九、PASCAL VOC (PASCAL Visual Object Classes Challenge)

PASCAL Visual Object Classes (VOC) 2012 数据集包含 20 个对象类别,包括车辆、家庭、动物和其他:飞机、自行车、船、公共汽车、汽车、摩托车、火车、瓶子、椅子、餐桌、盆栽植物、沙发、 电视/显示器、鸟、猫、牛、狗、马、羊和人。 该数据集中的每个图像都有像素级分割注释、边界框注释和对象类注释。 该数据集已广泛用作对象检测、语义分割和分类任务的基准。 PASCAL VOC 数据集分为三个子集:1,464 个用于训练的图像、1,449 个用于验证的图像和一个私有测试集。

在这里插入图片描述

十、FGVC-Aircraft

FGVC-Aircraft 包含 10,200 张飞机图像,其中 102 种不同的飞机模型变体各有 100 张图像,其中大多数是飞机。 每幅图像中的(主)飞机都用紧密边界框和分层飞机模型标签进行注释。 飞机模型按四级层次结构组织。 这四个级别从细到粗分别是:

型号,例如 波音 737-76J。 由于某些模型在视觉上几乎无法区分,因此在评估中不使用该级别。
变体,例如 波音 737-700。 一种变体将所有视觉上无法区分的模型合并为一类。 该数据集包含 102 个不同的变体。
家庭,例如 波音 737。该数据集包含 70 个不同的系列。
制造商,例如 波音。 该数据集包含 41 个不同的制造商。 数据分为三个大小相等的训练、验证和测试子集。

在这里插入图片描述

十一、tieredImageNet

tieredImageNet 数据集是 ILSVRC-12 的较大子集,包含 608 个类(779,165 个图像),在 ImageNet 人工管理的层次结构中分为 34 个更高级别的节点。 这组节点被划分为 20、6 和 8 个不相交的训练、验证和测试节点集,相应的类形成各自的元集。 正如 Ren 等人所争论的那样。 (2018),ImageNet 层次结构根部附近的这种分裂导致了更具挑战性但更现实的制度,其中测试类与训练类不太相似。

在这里插入图片描述

十二、EuroSAT

Eurosat 是用于土地利用和土地覆盖分类的数据集和深度学习基准。 该数据集基于 Sentinel-2 卫星图像,涵盖 13 个光谱带,由 10 个类别组成,总共 27,000 张标记和地理参考图像。
在这里插入图片描述

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
以下是一个简单的计算机视觉图像分类代码,使用了PyTorch框架和CIFAR-10数据集: ```python import torch import torchvision import torchvision.transforms as transforms # 加载数据集 transform = transforms.Compose( [transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))]) trainset = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=transform) trainloader = torch.utils.data.DataLoader(trainset, batch_size=4, shuffle=True, num_workers=2) testset = torchvision.datasets.CIFAR10(root='./data', train=False, download=True, transform=transform) testloader = torch.utils.data.DataLoader(testset, batch_size=4, shuffle=False, num_workers=2) classes = ('plane', 'car', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck') # 定义神经网络 import torch.nn as nn import torch.nn.functional as F class Net(nn.Module): def __init__(self): super(Net, self).__init__() self.conv1 = nn.Conv2d(3, 6, 5) self.pool = nn.MaxPool2d(2, 2) self.conv2 = nn.Conv2d(6, 16, 5) self.fc1 = nn.Linear(16 * 5 * 5, 120) self.fc2 = nn.Linear(120, 84) self.fc3 = nn.Linear(84, 10) def forward(self, x): x = self.pool(F.relu(self.conv1(x))) x = self.pool(F.relu(self.conv2(x))) x = x.view(-1, 16 * 5 * 5) x = F.relu(self.fc1(x)) x = F.relu(self.fc2(x)) x = self.fc3(x) return x net = Net() # 定义损失函数和优化器 import torch.optim as optim criterion = nn.CrossEntropyLoss() optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9) # 训练网络 for epoch in range(2): # 多次循环遍历数据集 running_loss = 0.0 for i, data in enumerate(trainloader, 0): # 获取输入 inputs, labels = data # 梯度清零 optimizer.zero_grad() # 正向传播,反向传播,优化 outputs = net(inputs) loss = criterion(outputs, labels) loss.backward() optimizer.step() # 打印统计信息 running_loss += loss.item() if i % 2000 == 1999: # 每2000个小批量数据打印一次 print('[%d, %5d] loss: %.3f' % (epoch + 1, i + 1, running_loss / 2000)) running_loss = 0.0 print('Finished Training') # 测试网络 correct = 0 total = 0 with torch.no_grad(): for data in testloader: images, labels = data outputs = net(images) _, predicted = torch.max(outputs.data, 1) total += labels.size(0) correct += (predicted == labels).sum().item() print('Accuracy of the network on the 10000 test images: %d %%' % ( 100 * correct / total)) # 输出每个类别的准确率 class_correct = list(0. for i in range(10)) class_total = list(0. for i in range(10)) with torch.no_grad(): for data in testloader: images, labels = data outputs = net(images) _, predicted = torch.max(outputs, 1) c = (predicted == labels).squeeze() for i in range(4): label = labels[i] class_correct[label] += c[i].item() class_total[label] += 1 for i in range(10): print('Accuracy of %5s : %2d %%' % ( classes[i], 100 * class_correct[i] / class_total[i])) ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

旅途中的宽~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值