【数据集篇】多模态大模型：65 个测试常用基准数据集+ 涵盖13个任务

大F的智能小课

已于 2025-03-08 23:42:04 修改

阅读量1.8k

点赞数 23

文章标签：人工智能

于 2025-03-05 12:27:44 首次发布

本文链接：https://blog.csdn.net/zengzizi/article/details/137359810

版权

大家好，我是大 F，深耕AI算法十余年，互联网大厂技术岗。分享AI算法干货、技术心得。
欢迎关注《大模型理论和实战》、《DeepSeek技术解析和实战》，一起探索技术的无限可能！

视觉问答 (Visual Question Answering)

1. VQA Dataset

基本介绍: 基于现实世界图片的开放式视觉问答数据集，提供图像以及一系列对这些图像的问题。
数据集大小: 约204,721张图片，超过614,163个问题。
是否支持中文: 存在部分研究中的中文翻译版本。
主要适合做什么测试: 视觉问答。
官网: Visual Question Answering
出品方: Georgia Tech, Facebook AI Research
年份: 2015

2. GQA Dataset

基本介绍: 图像视觉问答数据集，着重于视觉场景深入理解和推理。
数据集大小: 113K图像，22M问题答案对。
是否支持中文: 不支持。
主要适合做什么测试: 视觉问答和视觉理解。
官网: GQA
出品方: Stanford University
年份: 2019

3. CLEVR

基本介绍: 包含合成图像以评估视觉问答和推理模型，使用具有明确结构的场景和问题。
数据集大小: 100K图像和850K问题。
是否支持中文: 不支持。
主要适合做什么测试: 视觉推理和逻辑问答。
官网: CLEVR
出品方: Stanford University
年份: 2017

4. KVQA (Knowledge-based VQA)

基本介绍: 结合了知识图谱的视觉问答数据集。
数据集大小: 24,000张图像和183,000个问题答案对。
是否支持中文: 不支持。
主要适合做什么测试: 结合外部知识库的视觉问答任务。
官网: KVQA
出品方: N/A
年份: N/A

5. TDIUC (Task-Directed Image Understanding Challenge)

基本介绍: VQA的变体，包括不同类型的视觉问答任务。
数据集大小: 包含167,437个问题，来自14个不同类别。
是否支持中文: 不支持。
主要适合做什么测试: 视觉问答的多任务性能测试。
官网: TDIUC
出品方: Virginia Tech, Georgia Tech
年份: N/A

图像标注 (Image Captioning)

1. MSCOCO Captions

基本介绍: 包含现实世界自然场景图片以及对应的文本描述。
数据集大小: 超过123,000张图片，5个或更多不同标注员的标注。
是否支持中文: 有中文翻译版本。
主要适合做什么测试: 自动生成图片文本描述。
官网: MSCOCO Captions
出品方: Microsoft
年份: 2014

2. Flickr30k

基本介绍: 包含现实世界图片和对应的5条文本描述。
数据集大小: 约31,000张图片，累计约155,000条描述。
是否支持中文: 有Flickr30k中文版本。
官网: Flickr30k
出品方: University of Illinois at Urbana-Champaign
年份: 2015

3. Flickr8k

基本介绍: 每张图片配有5个人类编写的描述，注重日常场景的多样性。
数据集大小: 约8,000张图片，总计40,000个文本描述。
是否支持中文: 有部分中文翻译。
主要适合做什么测试: 图像描述的生成与评估。
官网: Flickr8k
出品方: University of Illinois at Urbana-Champaign
年份: 2013

4. AI Challenger Global Context Annotation

基本介绍: 该数据集提供了大规模的图像标注数据集，针对中国用户进行了优化，图像配有中文注释。
数据集大小: 超过30万张图片，每张配有三条中文描述。
是否支持中文: 是。
主要适合做什么测试: 中文图像描述的生成与评估。
官网: AI Challenger
出品方: Sinovation Ventures
年份: 2017

5. SBU Captioned Photo Dataset

基本介绍: 该数据集从Flickr收集图像，并自动摘取与之相关的描述性文本。
数据集大小: 约1百万张图片。
是否支持中文: 不支持。
主要适合做什么测试: 图像描述生成与关联。
官网: SBU Captioned Photo Dataset
出品方: Stony Brook University
年份: 2011

文本图像检索 (Text-Image Retrieval)

1. MSCOCO (Microsoft Common Objects in Context)

基本介绍: MSCOCO 提供了大量不同场景的图像和对应的标注信息，包括对象检测、区域性标注和标注文本。
数据集大小: 超过200,000张图像，1.5百万个对象实例。
是否支持中文: 有部分研究中的中文翻译版本。
主要适合做什么测试: 物体分类、检测和图像检索。
官网: MSCOCO
出品方: Microsoft
年份: 2014

2. Flickr30k Entities

基本介绍: Flickr30k的扩展，附带了对图片描述中的短语的位置信息。
数据集大小: 约31,000张图片。
是否支持中文: 不支持。
主要适合做什么测试: 文本到图像的检索，标注与词组定位。
官网: Flickr30k Entities
出品方: University of Illinois at Urbana-Champaign
年份: 2015

3. Google Open Images Dataset

基本介绍: 提供了大量的图像，并包含了图片中对象的标注。
数据集大小: 超过900万张图像，含有图像级标签到对象级标注。
是否支持中文: 不支持。
主要适合做什么测试: 对象检测、图像分类和关联检索。
官网: Open Images Dataset
出品方: Google

4. CUB-200-2011

基本介绍: 加州大学伯克利分校的CUB-200-2011是一个集中在200种不同鸟类的细粒度图像分类任务的数据集，其中图片中的鸟类都间接通过文本描述。
数据集大小: 包含11,788张图像与对应的细粒度标注。
是否支持中文: 不支持。
主要适合做什么测试: 文本到图像的颗粒度检索与分类。
官网: CUB-200-2011
出品方: 加州理工学院
年份: 2011

5. Paris500k and Oxford5k

基本介绍: 这两个数据集包含了分别来自巴黎和牛津的知名地点图片，每个数据集都包括大量地点的图片和详细的标注，适合检索和识别具体的地标。
数据集大小: Paris500k包括约500,000张图像，Oxford5k包括约5,000张图像。
是否支持中文: 不支持。
主要适合做什么测试: 针对地标的图像检索与识别。
官网: Paris500k 和 Oxford5k
出品方: 牛津大学视觉几何组
年份: 不明确

视觉语义分割 (Visual Semantic Segmentation)

1. Cityscapes

基本介绍: 此数据集用于城市街景的理解，包含欧洲不同城市的街景图像，提供了精细的像素级标注。
数据集大小: 包含5,000张图像的精细标注以及20,000张带粗糙标注的图像。
是否支持中文: 不支持。
主要适合做什么测试: 城市街道场景中的语义分割。
官网: Cityscapes
出品方: 由德国斯图加特大学和公司Max Planck Institute for Informatics 的研究者创建
年份: 2016

2. PASCAL VOC

基本介绍: 旨在推动计算机视觉领域的进步，提供了图像级标注、对象检测和分割等任务标注的图像。
数据集大小: 不同年份有不同规模，例如VOC2012包括~11,000张图像。
是否支持中文: 不支持。
主要适合做什么测试: 图像分类、对象检测、图像分割。
官网: PASCAL VOC
出品方: University of Oxford
年份: 每年更新，2007-2012

3. COCO-Stuff

基本介绍: 基于MSCOCO数据集，额外提供了图像中每个像素属于哪一种"stuff"类别的标注（如天空、地面、水面等）。
数据集大小: 包含10,000张图像和91个"stuff"类别。
是否支持中文: 不支持。
主要适合做什么测试: 语义分割，尤其是对于非对象类别。
官网: COCO-Stuff Dataset | Papers With Code

4. SUN RGB-D

基本介绍: 此数据集是室内场景理解的一个RGB-D数据集，包括RGB图片以及与之对应的深度图像，提供像素级和物体级的标注。
数据集大小: 包含10,000张带有标注的RGB-D图像。
是否支持中文: 不支持。
主要适合做什么测试: 室内场景的语义分割和物体检测。
官网: SUN RGB-D
出品方: 普林斯顿大学、布朗大学、斯坦福大学
年份: 2015

5. CamVid

基本介绍: 是自动驾驶汽车视角的街道场景数据集，提供了视频序列及其对应的像素级标注。
数据集大小: 包括701张标注好的图像，及4个序列的无标注视频。
是否支持中文: 不支持。
主要适合做什么测试: 视频序列的语义分割。
官网: CamVid
出品方: 剑桥大学机器智能实验室
年份: 2008

视觉跟踪 (Visual Tracking)

1. OTB (Object Tracking Benchmark)

基本介绍: 这是视觉跟踪领域的一个经典数据集，由各种各样的真实视频构成，注重评估对象跟踪的性能。
数据集大小: 包括100个视频序列。
是否支持中文: 不支持。
主要适合做什么测试: 对象跟踪算法性能评估。
官网: OTB
出品方: 哈尔滨工业大学
年份: 2013

2. VOT (Visual Object Tracking challenge)

基本介绍: 旨在追踪视频中单个对象的数据集，每年都会进行跟踪挑战，提供新的数据集进行算法比较。
数据集大小: 每年的数据集不同，包含数十到数百个视频序列。
是否支持中文: 不支持。
主要适合做什么测试: 对象跟踪。
官网: VOT Challenge
出品方: VOT committee
年份: 每年举办新的挑战

3. UAV123

基本介绍: 无人机视角捕获的对象跟踪数据集，要求模型在高动态和小对象场景下实现稳定跟踪。
数据集大小: 包括123个视频序列。
是否支持中文: 不支持。
主要适合做什么测试: 在无人机视频中进行对象跟踪。
官网: UAV123
出品方: IVUL - KAUST
年份: 2016

4. LaSOT

基本介绍: 数据集包括了丰富多样的场景下的大规模、高质量的单对象跟踪视频序列。
数据集大小: 包括1400个视频序列，超过3.5百万帧。
是否支持中文: 不支持。
主要适合做什么测试:对象跟踪
官网: LaSOT
出品方: Temple University
年份: 2019

5. GOT-10k

基本介绍: 是一个专注于跟踪通用对象的大规模数据集，含有各种运动物体和背景。
数据集大小: 包含超过10,000个视频片段和超过1.5百万个标注帧。
是否支持中文: 不支持。
主要适合做什么测试: 跨类别通用对象跟踪。
官网: GOT-10k
出品方: AI Test
年份: 2019

视听多模态融合 (Audio-Visual Multi-Modal Fusion)

1. AVA Speech

基本介绍: 专注于人为环境中语音活动检测的数据集，提供视觉帧和对应的音频。
数据集大小: 包括超过15万个标注的视频片段。
是否支持中文: 不支持。
主要适合做什么测试: 视听活动检测。
官网: AVA Speech
出品方: Google
年份: N/A

2. LRS2 (Lip Reading Sentences 2)

基本介绍: 包括数百小时的BBC节目视频和对应的英文语音字幕，用于视听语音识别和唇读任务。
数据集大小: 数百小时视频材料。
是否支持中文: 不支持。
主要适合做什么测试: 唇读和视听语音识别。
官网: LRS2
出品方: University of Oxford
年份: 2017

3. AudioSet

基本介绍: 包含来自YouTube视频的广泛音频标签数据集，标注了多种环境下的声音事件。
数据集大小: 超过200万个10秒级别的音频片段。
是否支持中文: 不支持。
主要适合做什么测试: 环境声音识别。
官网: AudioSet
出品方: Google
年份: 2017

4. AVA-Kinetics

基本介绍: 结合AVA数据集的视觉动作识别和Kinetics数据集的音频信息，用于视听事件识别。
数据集大小: 包括约230,000个视频片段。
是否支持中文: 不支持。
主要适合做什么测试: 视听动作识别。
官网: AVA-Kinetics
出品方: Google
年份: 2020

5. VoxCeleb

基本介绍: 提供了大量名人的视频片段以及音频，用于识别人声和面部。
数据集大小: 包括超过1百万个视频片段，涉及7,000多个名人。
是否支持中文: 不支持。
主要适合做什么测试: 人声识别和面部识别。
官网: VoxCeleb
出品方: University of Oxford
年份: 2017

长期单对象跟踪（long-term single object tracking）。

官网: LaSOT
出品方: Temple University
年份: 2019

5. GOT-10k

基本介绍: 是一个大规模通用对象跟踪数据集，包含上万段视频和超过100种对象类别。
数据集大小: 包括超过10,000个视频片段，覆盖了多达560个对象类别。
是否支持中文: 不支持。
主要适合做什么测试: 广义对象跟踪性能评估。
官网: GOT-10k
出品方: 多所中国大学共同合作
年份: 2019

交互式视频对象分割 (Interactive Video Object Segmentation)

1. DAVIS (Densely Annotated VIdeo Segmentation)

基本介绍: 提供高质量的视频对象分割标注，数据集旨在对视频中的对象进行逐帧分割。
数据集大小: 包括150段视频序列。
是否支持中文: 不支持。
主要适合做什么测试: 视频对象分割。
官网: DAVIS
出品方: Interactive Visual Media Group - ETH Zurich, Universitat Politecnica de Catalunya, University of Oxford
年份: 2017

2. YouTube-VOS