【计算机视觉 | 图像分类】图像分类常用数据集及其介绍（八）

本文链接：https://blog.csdn.net/wzk4869/article/details/133126790

文章目录

一、Kuzushiji-49

Kuzushiji-49 是一个类似 MNIST 的数据集，具有来自 48 个平假名字符和一个平假名迭代标记的 49 个类别（28x28 灰度，270,912 个图像）。

在这里插入图片描述

二、So2Sat LCZ42

So2Sat LCZ42 由全球 42 个城市群（加上 10 个其他较小区域）中约 50 万个 Sentinel-1 和 Sentinel-2 图像块的当地气候区 (LCZ) 标签组成。该数据集由 15 名领域专家按照精心设计的标记工作流程和评估流程在六个月内进行了标记。

在这里插入图片描述

三、DeepFish

DeepFish 作为基准套件，具有大规模数据集，用于训练和测试多个计算机视觉任务的方法。该数据集包含从澳大利亚热带海洋环境中 20 个栖息地水下收集的约 4 万张图像。它包含分类标签以及点级和分段标签，以获得更全面的鱼类分析基准。这些标签使模型能够学习自动监测鱼的数量、识别它们的位置并估计它们的大小。

在这里插入图片描述

四、FEMNIST (Federated Extended MNIST)

See paper:

Caldas, Sebastian, et al. “Leaf: A benchmark for federated settings.” arXiv preprint arXiv:1812.01097 (2018).

五、N-MNIST (Neuromorphic-MNIST)

简要说明 Neuromorphic-MNIST (N-MNIST) 数据集是原始基于帧的 MNIST 数据集的尖峰版本。它由与原始 MNIST 数据集相同的 60 000 个训练样本和 10 000 个测试样本组成，并以与原始 MNIST 数据集相同的视觉比例（28x28 像素）捕获。 N-MNIST 数据集是通过将 ATIS 传感器安装在电动云台上并让传感器在 LCD 监视器上查看 MNIST 示例时移动来捕获的，如本视频所示。数据集及其创建方式的完整描述可以在下面的论文中找到。如果您使用该数据集，请引用本文。

果园，G.；科恩，G.；贾亚万特，A.；和 Thakor, N.“使用眼跳将静态图像数据集转换为尖峰神经形态数据集”，《神经科学前沿》，第 9 卷，第 437 期，2015 年 10 月

六、ArtBench-10 (32x32)

我们推出了 ArtBench-10，这是第一个用于对艺术品生成进行基准测试的类平衡、高质量、注释清晰且标准化的数据集。它包含来自 10 种独特艺术风格的 60,000 张艺术作品图像，每种风格有 5,000 张训练图像和 1,000 张测试图像。 ArtBench-10 与以前的艺术作品数据集相比有几个优点。首先，它是类别平衡的，而以前的大多数艺术品数据集都受到长尾类别分布的影响。其次，图像质量高，注释清晰。第三，ArtBench-10是通过标准化的数据收集、注释、过滤和预处理程序创建的。我们提供了具有不同分辨率（32×32、256×256 和原始图像大小）的数据集的三个版本，其格式易于被流行的机器学习框架合并。

在这里插入图片描述

七、Causal3DIdent

更新 3DIdent，我们引入了六个附加对象类（野兔、龙、牛、犰狳、马和头），并对潜在变量强加了因果图。有关更多详细信息，请参阅相关论文中的附录 B (https://arxiv.org/abs/2106.04619)。

在这里插入图片描述

八、DFUC2021 (Diabetic Foot Ulcers 2021)

糖尿病足溃疡数据集 (DFUC2021) 是用于病理学分析的数据集，重点关注感染和缺血。 DFUC2021的最终版本由15,683个DFU补丁组成，其中5,955个训练补丁，5,734个测试补丁和3,994个未标记的DFU补丁。真实标签分为四类，即控制、感染、缺血和两种情况。

九、FoodX-251

FoodX-251 是一个包含 251 个细粒度类的数据集，包含 118k 训练图像、12k 验证图像和 28k 测试图像。人工验证的标签可用于训练和测试图像。这些类粒度细且视觉上相似，例如，不同类型的蛋糕、三明治、布丁、汤和面食。

在这里插入图片描述

十、NCT-CRC-HE-100K

NCT-CRC-HE-100K 数据集是从 86 H 中提取的一组 100,000 个不重叠的图像块。E 染色的人类癌症组织切片和正常组织来自 NCT 生物库（国家肿瘤疾病中心）和 UMM 病理档案（曼海姆大学医学中心）。虽然数据集 Colorectal Cacner-Validation-Histology-7K (CRC-VAL-HE-7K) 由从 50 名结直肠腺癌患者中提取的 7180 张图像组成，并用于创建与 NCT-CRC 中的患者不重叠的数据集， HE-100K 数据集。它是由病理学家通过手动将整个幻灯片图像中的组织区域划分为以下九个组织类别而创建的：脂肪 (ADI)、背景 (BACK)、碎片 (DEB)、淋巴细胞 (LYM)、粘液 (MUC)、平滑肌 (MUS) ）、正常结肠粘膜（NORM）、癌症相关间质（STR）、结直肠腺癌上皮（TUM）。

在这里插入图片描述