常见数据集
Fashion-MNIST
CIFAR-10
CIFAR-100
IMDb
Tiny-ImageNet
Fashion-MNIST
Fashion-MNIST数据集涵盖了来自 10 种类别的共 7 万个不同商品的正面图片。它的大小、格式和训练集 / 测试集划分与原始的 MNIST 完全一致。60,000 张训练图像,10,000 张测试图像。
28x28 的灰度图片,表示为一个包含 784 个元素的一维数组(类似于 MNIST。你可以直接用它来测试你的机器学习和深度学习算法性能,且不需要改动任何的代码。
这个数据集的样子大致如下(每个类别占三行):
类别(时尚物品):
T恤/上衣
裤子
套头衫
连衣裙
外套
凉鞋
衬衫
运动鞋
包包
短靴
CIFAR-10
CIFAR-10是一个广泛使用的图像分类数据集,由加拿大高级研究院(CIFAR)提供。它包含10个不同类别的彩色图片,用于机器学习和计算机视觉的研究。60,000张图片,50,000张训练图片,10,000张测试图片。
类别(物体类别):
飞机
汽车
鸟
猫
鹿
狗
青蛙
马
船
卡车
CIFAR-100
CIFAR-100 是 CIFAR-10 数据集的扩展,包含100个类别的彩色图像,适用于更复杂的图像分类任务。图片尺寸:每张图片为32x32像素,RGB彩色图像。数据集组成:总共60,000张图片
,50,000张训练图片,10,000张测试图片。类别:100个类别,分为20个超类,每个超类下有5个子类别。例如:超类:动物(如猫、狗、青蛙等)超类:车辆(如汽车、飞机、船等)具体可以参考一下 https://zhuanlan.zhihu.com/p/691355975
IMDb
数据集介绍:IMDB电影评论情感分类数据集 IMDB电影评论情感分类数据集是一个用于情感分类任务的公开数据集,该数据集包含了50,000条IMDB电影评论。这些评论被标记为正面或负面情感,用于训练和测试情感分类模型。
数据集中各个属性的含义如下: 1.评论文本:这是一条IMDB电影评论,长度不一。 2.情感标签:每条评论被标记为正面或负面情感,其中1代表正面情感,0代表负面情感。
该数据集中的评论来自于IMDB网站,评论的主题涵盖了各种类型的电影。数据集中的评论是匿名的,没有提供任何关于评论者的个人信息。
该数据集的主要用途是训练和测试情感分类模型。情感分类是一种文本分类任务,旨在将文本分类为积极或消极情感。通常使用机器学习算法来训练情感分类模型,这些算法使用已经标记好情感的文本来学习如何识别情感。
Tiny Imagenet
Tiny ImageNet Challenge 来源于斯坦福 CS231N 课程,共237M。Tiny Imagenet 有 200 个类。 每个类有 500 张训练图像、50 张验证图像和 50 张测试图像。每张图片为64x64像素,RGB彩色图像。训练集包含100,000张图片,测试集包含10,000张图片。
本文参考GPT回答及部分网页文章
https://cloud.tencent.com/developer/article/1117671
https://wenku.baidu.com/tfview/184c5f96971ea76e58fafab069dc5022abea4675.html?fr=launch_ad&utm_source=bdss-WD&utm_medium=cpc&utm_account=SS-bdtg883&e_creative=102494456457&e_keywordid=889284047258&bd_vid=nH0zn10dn1DLn1DvPjfkP10zPHuxnWcdg17xnH0sg1wxnH0zPjbYPjRvPjRL&wkts=1727182242659