【计算机视觉 | 图像分类】图像分类常用数据集及其介绍（七）

最新推荐文章于 2025-04-09 14:15:04 发布

旅途中的宽~

最新推荐文章于 2025-04-09 14:15:04 发布

阅读量1.2k

点赞数

分类专栏：图像分类数据集文章标签：计算机视觉分类人工智能

本文链接：https://blog.csdn.net/wzk4869/article/details/133126128

版权

图像分类数据集专栏收录该内容

14 篇文章

订阅专栏

本文介绍了多个IT技术相关的数据集，包括大规模场景分类数据集Million-AID、语言增强的视觉任务模型ELEVATER、语义分割MSeg、多任务学习数据集UrbanCars、仇恨言论检测ETHOS、动物图像数据集CatsandDogs等，涵盖了图像分类、对象检测、语音分析和病理图像等领域。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

一、Million-AID

Million-AID是一个大规模基准数据集，包含一百万个RS场景分类实例。 Million-AID中有51个语义场景类别。并且根据土地利用分类标准定制了场景类别，大大增强了所构建的Million-AID的实用性。与现有的场景分类数据集以并行或不确定的关系组织类别不同，Million-AID中的场景类别以系统的关系架构组织，使其在管理和可扩展性方面具有优越性。具体来说，Million-AID中的场景类别是通过三层树的层次类别网络来组织的：51个叶子节点落入第二层的28个父节点，这些节点在第一层被分组为8个节点，代表8个底层农业用地、商业用地、工业用地、公共服务用地、居住用地、交通用地、未利用地、水域等场景类别。场景类别网络为数据集提供了不同场景类别之间关系的良好组织以及可扩展性。每个场景类别的图像数量从2,000到45,000不等，赋予数据集长尾分布的特性。此外，Million-AID由于其高空间分辨率、大规模和全球分布而比现有的场景分类数据集具有优势。

在这里插入图片描述

二、ELEVATER (Evaluation of Language-augmented Visual Task-level Transfer)

ELEVATER 基准测试是用于训练、评估和分析图像分类和对象检测的语言图像模型的资源集合。电梯组成：

基准：基准套件由 20 个图像分类数据集和 35 个对象检测数据集组成，并通过外部知识进行增强
Toolkit：自动超参数调优工具包；强语言增强的高效模型适应方法。
基线：预先训练的无语言和语言增强的视觉模型。
知识：研究外部知识对视力问题的益处的平台。
评估指标：样本效率（零样本、少样本和全样本）和参数效率。
排行榜：用于跟踪基准表现的公共排行榜
ELEVATER 的最终目标是推动语言图像模型开发的研究，以解决野外的核心计算机视觉问题。

三、MSeg

统一来自不同领域的语义分割数据集的复合数据集。

在这里插入图片描述

四、UrbanCars

UrbanCars 通过两个快捷方式（背景和共现对象）在受控设置下促进多快捷方式学习。任务是将车身类型分为两类：城市汽车和乡村汽车。该数据集包含三个部分：训练、验证和测试。在训练集中，两个快捷方式与车身类型虚假相关。验证集和测试集都是平衡的，即没有虚假相关性。验证集用于模型选择，测试集评估两种捷径的缓解效果。

在这里插入图片描述

五、ETHOS (multi-labEl haTe speecH detectiOn dataSet)

ETHOS 是一个仇恨言论检测数据集。它是根据通过众包平台验证的 YouTube 和 Reddit 评论构建的。它有两个子集，一个用于二元分类，另一个用于多标签分类。前者包含 998 条评论，后者包含 433 条评论的细粒度仇恨言论注释。

六、Cats and Dogs

一大组猫和狗的图像。

主页：https://www.microsoft.com/en-us/download/details.aspx?id=54765

源代码：tfds.image_classification.CatsVsDogs

版本：

4.0.0（默认）：新的 split API (https://tensorflow.org/datasets/splits) 下载大小：786.68 MiB

资料来源：https://www.tensorflow.org/datasets/catalog/cats_vs_dogs

在这里插入图片描述

七、TAU Urban Acoustic Scenes 2019

TAU Urban Acoustic Scenes 2019 开发数据集由 10 个声学场景的 10 秒音频片段组成：机场、室内购物中心、地铁站、步行街、公共广场、中等交通量的街道、乘坐有轨电车、乘坐公共汽车，乘坐地下地铁和城市公园。每个声学场景有 1440 个片段（240 分钟的音频）。该数据集总共包含 40 小时的音频。

在这里插入图片描述

八、BCN_20000

BCN_20000 是一个数据集，由 2010 年至 2016 年在巴塞罗那医院诊所设施中捕获的 19,424 张皮肤病变皮肤镜图像组成。该数据集可用于病变分割、病变检测和病变分类等病变识别任务。

在这里插入图片描述

九、GasHisSDB

上海中医药大学龙华医院四位病理医生提供600张胃癌病理图像，尺寸为20482048 像素。这些图像使用 NewUsbCamera 进行扫描并在四位经验丰富的病理学家还给出了 20 倍放大倍数的组织水平标签。在此基础上，东北大学的五位生物医学研究人员将其裁剪为245,196张小尺寸胃癌病理图像，并由辽宁省肿瘤医院和研究所的两位经验丰富的病理学家进行校准。 245,196 张图像被分为三种尺寸（160160, 120120, 8080) 分为两类：异常和正常。

在这里插入图片描述