【数据集篇 】 多模态大模型 :65 个测试常用基准数据集+ 涵盖13个任务

大家好,我是大 F,深耕AI算法十余年,互联网大厂技术岗。分享AI算法干货、技术心得。
欢迎关注《大模型理论和实战》、《DeepSeek技术解析和实战》,一起探索技术的无限可能!

 

视觉问答 (Visual Question Answering)

1. VQA Dataset

  • 基本介绍: 基于现实世界图片的开放式视觉问答数据集,提供图像以及一系列对这些图像的问题。
  • 数据集大小: 约204,721张图片,超过614,163个问题。
  • 是否支持中文: 存在部分研究中的中文翻译版本。
  • 主要适合做什么测试: 视觉问答。
  • 官网: Visual Question Answering
  • 出品方: Georgia Tech, Facebook AI Research
  • 年份: 2015

2. GQA Dataset

  • 基本介绍: 图像视觉问答数据集,着重于视觉场景深入理解和推理。
  • 数据集大小: 113K图像,22M问题答案对。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 视觉问答和视觉理解。
  • 官网: GQA
  • 出品方: Stanford University
  • 年份: 2019

3. CLEVR

  • 基本介绍: 包含合成图像以评估视觉问答和推理模型,使用具有明确结构的场景和问题。
  • 数据集大小: 100K图像和850K问题。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 视觉推理和逻辑问答。
  • 官网: CLEVR
  • 出品方: Stanford University
  • 年份: 2017

4. KVQA (Knowledge-based VQA)

  • 基本介绍: 结合了知识图谱的视觉问答数据集。
  • 数据集大小: 24,000张图像和183,000个问题答案对。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 结合外部知识库的视觉问答任务。
  • 官网: KVQA
  • 出品方: N/A
  • 年份: N/A

5. TDIUC (Task-Directed Image Understanding Challenge)

  • 基本介绍: VQA的变体,包括不同类型的视觉问答任务。
  • 数据集大小: 包含167,437个问题,来自14个不同类别。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 视觉问答的多任务性能测试。
  • 官网: TDIUC
  • 出品方: Virginia Tech, Georgia Tech
  • 年份: N/A

图像标注 (Image Captioning)

1. MSCOCO Captions

  • 基本介绍: 包含现实世界自然场景图片以及对应的文本描述。
  • 数据集大小: 超过123,000张图片,5个或更多不同标注员的标注。
  • 是否支持中文: 有中文翻译版本。
  • 主要适合做什么测试: 自动生成图片文本描述。
  • 官网: MSCOCO Captions
  • 出品方: Microsoft
  • 年份: 2014

2. Flickr30k

  • 基本介绍: 包含现实世界图片和对应的5条文本描述。
  • 数据集大小: 约31,000张图片,累计约155,000条描述。
  • 是否支持中文: 有Flickr30k中文版本。
  • 官网: Flickr30k
  • 出品方: University of Illinois at Urbana-Champaign
  • 年份: 2015

3. Flickr8k

  • 基本介绍: 每张图片配有5个人类编写的描述,注重日常场景的多样性。
  • 数据集大小: 约8,000张图片,总计40,000个文本描述。
  • 是否支持中文: 有部分中文翻译。
  • 主要适合做什么测试: 图像描述的生成与评估。
  • 官网: Flickr8k
  • 出品方: University of Illinois at Urbana-Champaign
  • 年份: 2013

4. AI Challenger Global Context Annotation

  • 基本介绍: 该数据集提供了大规模的图像标注数据集,针对中国用户进行了优化,图像配有中文注释。
  • 数据集大小: 超过30万张图片,每张配有三条中文描述。
  • 是否支持中文: 是。
  • 主要适合做什么测试: 中文图像描述的生成与评估。
  • 官网: AI Challenger
  • 出品方: Sinovation Ventures
  • 年份: 2017

5. SBU Captioned Photo Dataset

  • 基本介绍: 该数据集从Flickr收集图像,并自动摘取与之相关的描述性文本。
  • 数据集大小: 约1百万张图片。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 图像描述生成与关联。
  • 官网: SBU Captioned Photo Dataset
  • 出品方: Stony Brook University
  • 年份: 2011

文本图像检索 (Text-Image Retrieval)

1. MSCOCO (Microsoft Common Objects in Context)

  • 基本介绍: MSCOCO 提供了大量不同场景的图像和对应的标注信息,包括对象检测、区域性标注和标注文本。
  • 数据集大小: 超过200,000张图像,1.5百万个对象实例。
  • 是否支持中文: 有部分研究中的中文翻译版本。
  • 主要适合做什么测试: 物体分类、检测和图像检索。
  • 官网: MSCOCO
  • 出品方: Microsoft
  • 年份: 2014

2. Flickr30k Entities

  • 基本介绍: Flickr30k的扩展,附带了对图片描述中的短语的位置信息。
  • 数据集大小: 约31,000张图片。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 文本到图像的检索,标注与词组定位。
  • 官网: Flickr30k Entities
  • 出品方: University of Illinois at Urbana-Champaign
  • 年份: 2015

3. Google Open Images Dataset

  • 基本介绍: 提供了大量的图像,并包含了图片中对象的标注。
  • 数据集大小: 超过900万张图像,含有图像级标签到对象级标注。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 对象检测、图像分类和关联检索。
  • 官网: Open Images Dataset
  • 出品方: Google

 

4. CUB-200-2011

  • 基本介绍: 加州大学伯克利分校的CUB-200-2011是一个集中在200种不同鸟类的细粒度图像分类任务的数据集,其中图片中的鸟类都间接通过文本描述。
  • 数据集大小: 包含11,788张图像与对应的细粒度标注。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 文本到图像的颗粒度检索与分类。
  • 官网: CUB-200-2011
  • 出品方: 加州理工学院
  • 年份: 2011

5. Paris500k and Oxford5k

  • 基本介绍: 这两个数据集包含了分别来自巴黎和牛津的知名地点图片,每个数据集都包括大量地点的图片和详细的标注,适合检索和识别具体的地标。
  • 数据集大小: Paris500k包括约500,000张图像,Oxford5k包括约5,000张图像。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 针对地标的图像检索与识别。
  • 官网: Paris500kOxford5k
  • 出品方: 牛津大学视觉几何组
  • 年份: 不明确

视觉语义分割 (Visual Semantic Segmentation)

1. Cityscapes

  • 基本介绍: 此数据集用于城市街景的理解,包含欧洲不同城市的街景图像,提供了精细的像素级标注。
  • 数据集大小: 包含5,000张图像的精细标注以及20,000张带粗糙标注的图像。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 城市街道场景中的语义分割。
  • 官网: Cityscapes
  • 出品方: 由德国斯图加特大学和公司Max Planck Institute for Informatics 的研究者创建
  • 年份: 2016

2. PASCAL VOC

  • 基本介绍: 旨在推动计算机视觉领域的进步,提供了图像级标注、对象检测和分割等任务标注的图像。
  • 数据集大小: 不同年份有不同规模,例如VOC2012包括~11,000张图像。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 图像分类、对象检测、图像分割。
  • 官网: PASCAL VOC
  • 出品方: University of Oxford
  • 年份: 每年更新,2007-2012

3. COCO-Stuff

  • 基本介绍: 基于MSCOCO数据集,额外提供了图像中每个像素属于哪一种"stuff"类别的标注(如天空、地面、水面等)。
  • 数据集大小: 包含10,000张图像和91个"stuff"类别。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 语义分割,尤其是对于非对象类别。
  • 官网: COCO-Stuff Dataset | Papers With Code

4. SUN RGB-D

  • 基本介绍: 此数据集是室内场景理解的一个RGB-D数据集,包括RGB图片以及与之对应的深度图像,提供像素级和物体级的标注。
  • 数据集大小: 包含10,000张带有标注的RGB-D图像。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 室内场景的语义分割和物体检测。
  • 官网: SUN RGB-D
  • 出品方: 普林斯顿大学、布朗大学、斯坦福大学
  • 年份: 2015

5. CamVid

  • 基本介绍: 是自动驾驶汽车视角的街道场景数据集,提供了视频序列及其对应的像素级标注。
  • 数据集大小: 包括701张标注好的图像,及4个序列的无标注视频。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 视频序列的语义分割。
  • 官网: CamVid
  • 出品方: 剑桥大学机器智能实验室
  • 年份: 2008

视觉跟踪 (Visual Tracking)

1. OTB (Object Tracking Benchmark)

  • 基本介绍: 这是视觉跟踪领域的一个经典数据集,由各种各样的真实视频构成,注重评估对象跟踪的性能。
  • 数据集大小: 包括100个视频序列。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 对象跟踪算法性能评估。
  • 官网: OTB
  • 出品方: 哈尔滨工业大学
  • 年份: 2013

2. VOT (Visual Object Tracking challenge)

  • 基本介绍: 旨在追踪视频中单个对象的数据集,每年都会进行跟踪挑战,提供新的数据集进行算法比较。
  • 数据集大小: 每年的数据集不同,包含数十到数百个视频序列。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 对象跟踪。
  • 官网: VOT Challenge
  • 出品方: VOT committee
  • 年份: 每年举办新的挑战

3. UAV123

  • 基本介绍: 无人机视角捕获的对象跟踪数据集,要求模型在高动态和小对象场景下实现稳定跟踪。
  • 数据集大小: 包括123个视频序列。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 在无人机视频中进行对象跟踪。
  • 官网: UAV123
  • 出品方: IVUL - KAUST
  • 年份: 2016

4. LaSOT

  • 基本介绍: 数据集包括了丰富多样的场景下的大规模、高质量的单对象跟踪视频序列。
  • 数据集大小: 包括1400个视频序列,超过3.5百万帧。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试:对象跟踪
  • 官网: LaSOT
  • 出品方: Temple University
  • 年份: 2019

5. GOT-10k

  • 基本介绍: 是一个专注于跟踪通用对象的大规模数据集,含有各种运动物体和背景。
  • 数据集大小: 包含超过10,000个视频片段和超过1.5百万个标注帧。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 跨类别通用对象跟踪。
  • 官网: GOT-10k
  • 出品方: AI Test
  • 年份: 2019

视听多模态融合 (Audio-Visual Multi-Modal Fusion)

1. AVA Speech

  • 基本介绍: 专注于人为环境中语音活动检测的数据集,提供视觉帧和对应的音频。
  • 数据集大小: 包括超过15万个标注的视频片段。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 视听活动检测。
  • 官网: AVA Speech
  • 出品方: Google
  • 年份: N/A

2. LRS2 (Lip Reading Sentences 2)

  • 基本介绍: 包括数百小时的BBC节目视频和对应的英文语音字幕,用于视听语音识别和唇读任务。
  • 数据集大小: 数百小时视频材料。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 唇读和视听语音识别。
  • 官网: LRS2
  • 出品方: University of Oxford
  • 年份: 2017

3. AudioSet

  • 基本介绍: 包含来自YouTube视频的广泛音频标签数据集,标注了多种环境下的声音事件。
  • 数据集大小: 超过200万个10秒级别的音频片段。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 环境声音识别。
  • 官网: AudioSet
  • 出品方: Google
  • 年份: 2017

4. AVA-Kinetics

  • 基本介绍: 结合AVA数据集的视觉动作识别和Kinetics数据集的音频信息,用于视听事件识别。
  • 数据集大小: 包括约230,000个视频片段。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 视听动作识别。
  • 官网: AVA-Kinetics
  • 出品方: Google
  • 年份: 2020

5. VoxCeleb

  • 基本介绍: 提供了大量名人的视频片段以及音频,用于识别人声和面部。
  • 数据集大小: 包括超过1百万个视频片段,涉及7,000多个名人。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 人声识别和面部识别。
  • 官网: VoxCeleb
  • 出品方: University of Oxford
  • 年份: 2017

长期单对象跟踪(long-term single object tracking)。

  • 官网: LaSOT
  • 出品方: Temple University
  • 年份: 2019

5. GOT-10k

  • 基本介绍: 是一个大规模通用对象跟踪数据集,包含上万段视频和超过100种对象类别。
  • 数据集大小: 包括超过10,000个视频片段,覆盖了多达560个对象类别。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 广义对象跟踪性能评估。
  • 官网: GOT-10k
  • 出品方: 多所中国大学共同合作
  • 年份: 2019

交互式视频对象分割 (Interactive Video Object Segmentation)

1. DAVIS (Densely Annotated VIdeo Segmentation)

  • 基本介绍: 提供高质量的视频对象分割标注,数据集旨在对视频中的对象进行逐帧分割。
  • 数据集大小: 包括150段视频序列。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 视频对象分割。
  • 官网: DAVIS
  • 出品方: Interactive Visual Media Group - ETH Zurich, Universitat Politecnica de Catalunya, University of Oxford
  • 年份: 2017

2. YouTube-VOS

  • 基本介绍: 目前最大的视频对象分割数据集,提供了精确的像素级别标注,并包含多个对象类别。
  • 数据集大小: 包括4,453个YouTube视频片段,涉及94个对象类别。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 视频对象分割。
  • 官网: YouTube-VOS
  • 出品方: University of California, Berkeley
  • 年份: 2018

3. SegTrack v2

  • 基本介绍: 是一个基准数据集,用于评估视频中的对象分割性能。
  • 数据集大小: 包括14个带多个对象的视频序列。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 视频对象分割。
  • 官网: SegTrack v2
  • 出品方: Oregon State University
  • 年份: 2013

4. FBMS (Freiburg-Berkeley Motion Segmentation)

  • 基本介绍: 数据集提供了59个视频序列,用于评估运动分割算法。
  • 数据集大小: 包括59个视频序列。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 运动驱动的视频对象分割。
  • 官网: FBMS
  • 出品方: University of Freiburg, University of California, Berkeley
  • 年份: 2015

5. YouTube-Objects

  • 基本介绍: 数据集包含来自YouTube的视频,并提供了10个类别对象的分割标注。
  • 数据集大小: 包括约5,500个视频。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 视频中特定类别对象的分割。
  • 官网: YouTube-Objects
  • 出品方: Ecole Normale Superieure

多模态理解 (Multimodal Understanding)

1. MM-IMDb (Multimodal IMDb)

  • 基本介绍: 影视作品的多模态数据集,包含电影海报图像、元数据以及文本描述(如剧情简介)等。
  • 数据集大小: 包含25,959部电影。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 多模态情感分析和电影类型分类。
  • 官网: MM-IMDb
  • 出品方: Universidad Nacional de Colombia
  • 年份: 2017

2. AVA (Audio-Visual-Articulatory)

  • 基本介绍: 包含语音、视频及对口型动作的多模态数据集,用于语音识别研究。
  • 数据集大小: 超过100小时的多模态数据。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 音视频自动语音识别。
  • 官网: AVA
  • 出品方: AVA Project Consortium
  • 年份: N/A

3. M-VAD Names (Montreal Video Annotation Dataset)

  • 基本介绍: 提供了丰富的电影视频片段和对应的人工书写的描述文本。
  • 数据集大小: 包含49,000多个视频片段,自78部电影。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 视频描述生成。
  • 官网: M-VAD Names
  • 出品方: Carnegie Mellon University
  • 年份: 2015

4. VQA-Med (Visual Question Answering in the Medical Domain)

  • 基本介绍: 医学领域的视觉问答数据集,包含医学图像和相关的问答对。
  • 数据集大小: 包含至少3,000张图像和12,792个问答对。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 医学视觉问答。
  • 官网: VQA-Med
  • 出品方: ImageCLEF
  • 年份: 2019

5. xMediaNet (Cross-Media Network)

  • 基本介绍: 为跨媒体检索而提供的多模态数据集,包括文本、图像、视频等内容。
  • 数据集大小: 包含超过100,000条多模态数据。
  • 是否支持中文: 是。
  • 主要适合做什么测试: 跨媒体检索、多模态深度学习等。
  • 官网: xMediaNet
  • 出品方: 中国科学技术大学
  • 年份: 2017

自然语言理解 (Natural Language Understanding)

1. GLUE (General Language Understanding Evaluation)

  • 基本介绍: NLU任务的一个集合,包括文本蕴涵、情感分析、文本相似性等多个子任务。
  • 数据集大小: 包含数个不同的NLU任务集合。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 广泛的自然语言理解能力。
  • 官网: GLUE Benchmark
  • 出品方: NYU, U Washington, DeepMind
  • 年份: 2018

2. SNLI (Stanford Natural Language Inference)

  • 基本介绍: 文本蕴含数据集,包括一组句子对以及它们之间是矛盾

3. MultiNLI (Multi-Genre Natural Language Inference)

  • 基本介绍: 包含各种类型的文本(如小说、电话对话等),目标是判断句子对之间的关系。
  • 数据集大小: 大约433K个句子对。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 文本蕴含和推理。
  • 官网: MultiNLI
  • 出品方: New York University
  • 年份: 2017

4. CoLA (Corpus of Linguistic Acceptability)

  • 基本介绍: 包含了英语句子集合,并标记了它们的语法是否可接受。
  • 数据集大小: 约10.6K个句子。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 句子语法合规性判断。
  • 官网: CoLA
  • 出品方: New York University
  • 年份: 2018

5. SQuAD (Stanford Question Answering Dataset)

  • 基本介绍: 阅读理解数据集,包含问题和答案对,其中答案是可从原文中抽取的文本片段。
  • 数据集大小: SQuAD 1.1包含10万个问题,SQuAD 2.0包含15万个问题。
  • 是否支持中文: 有SQuAD 2.0的中文翻译版本。
  • 主要适合做什么测试: 阅读理解和问答。
  • 官网: SQuAD
  • 出品方: Stanford University
  • 年份: 1.1 - 2016, 2.0 - 2018

对话系统 (Dialogue Systems)

1. MultiWOZ (Multi-Domain Wizard-of-Oz)

  • 基本介绍: 对话数据集,覆盖多个领域并包含了任务型对话。
  • 数据集大小: 大约10K个多领域对话场景。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 对话系统、任务型对话理解。
  • 官网: MultiWOZ
  • 出品方: University of Cambridge
  • 年份: 2018

2. DailyDialog

  • 基本介绍: 包含日常沟通场景对话的数据集,关注于情感表达和对话行为。
  • 数据集大小: 包含13,118个对话。
  • 是否支持中文: 支持中文。
  • 主要适合做什么测试: 对话系统、情感分析。
  • 官网: DailyDialog
  • 出品方: 中国科学院
  • 年份: 2017

3. Cornell Movie-Dialogs Corpus

  • 基本介绍: 该数据集来自电影中的对话,适合研究对话系统和情感分析。
  • 数据集大小: 包含220,579个对话及42,000多部电影与百万级的对话行为。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 对话生成、对话情感分析。
  • 官网: Cornell Movie-Dialogs Corpus
  • 出品方: Cornell University
  • 年份: 不明确

4. DSTC (Dialogue State Tracking Challenges)

  • 基本介绍: 一系列旨在推动对话状态追踪技术发展的一系列挑战赛,每一轮挑战都关注于对话系统中的一个具体任务或问题。
  • 数据集大小: 随着每一轮挑战的不同而异。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 对话状态追踪、对话系统评估。
  • 官网: DSTC
  • 出品方: 多个研究机构合作
  • 年份: 每年更新

5. ConvAI2 (Conversational Intelligence Challenge 2)

  • 基本介绍: 基于PersonaChat数据集的对话系统挑战,旨在测试系统的个性化对话生成能力。
  • 数据集大小: 包含11,000个由机器和人类生成的对话。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 个性化对话生成。
  • 官网: ConvAI2
  • 出品方: Facebook AI Research, MIPT, Neural Networks and Deep Learning lab
  • 年份: 2018

机器翻译 (Machine Translation)

1. WMT (Workshop on Machine Translation)

  • 基本介绍: WMT是一系列评估机器翻译系统性能的比赛,每年提供多种语言对的数据集。
  • 数据集大小: 每年不同,包含数百万到数十亿词的数据集。
  • 是否支持中文: 包含中英文互译等多种语言对。
  • 主要适合做什么测试: 机器翻译、翻译系统评估。
  • 官网: WMT
  • 出品方: 多个研究团队协作组织
  • 年份: 每年更新

2. IWSLT (International Workshop on Spoken Language Translation)

  • 基本介绍: 针对口语翻译的评比工作坊,提供包含TED演讲的多语言数据集。
  • 数据集大小: 依赛事年份不同,通常包括数十个小时的语音及其文本翻译。
  • 是否支持中文: 包含中文在内的多种语言。
  • 主要适合做什么测试: 口语翻译、实时翻译系统评估。
  • 官网: IWSLT
  • 出品方: 多个研究团队协作组织
  • 年份: 每年更新

3. Tatoeba

  • 基本介绍: 包含多种语言的简短翻译句子对,适用于小范围的机器翻译训练和测试。
  • 数据集大小: 包含数百万条句子对。
  • 是否支持中文: 是,包含中文及其它多种语言间的翻译。
  • 主要适合做什么测试: 多语言对照翻译、翻译精度测试。
  • 官网: Tatoeba
  • 出品方: Tatoeba项目社区
  • 年份: 持续更新

4. UN Parallel Corpus

  • 基本介绍: 联合国多语言平行语料库,包含六种官方语言(阿拉伯语、中文、英语、法语、俄语、西班牙语)的文档翻译。
  • 数据集大小: 包含数百万条句子对。
  • 是否支持中文: 是。
  • 主要适合做什么测试: 大规模机器翻译,尤其适用于国际组织的文档。
  • 官网: UN Parallel Corpus
  • 出品方: 联合国
  • 年份: 持续更新

5. OPUS

  • 基本介绍: 一个开放的多语言翻译库,收集了很多不同来源的双语或多语言文本。
  • 数据集大小: 包含超过100种语言对,数十亿词的数据。
  • 是否支持中文: 是,包含中文与多种语言对的翻译。
  • 主要适合做什么测试: 机器翻译。
  • 官网: OPUS
  • 出品方: 翻译研究和开发团队
  • 年份: 持续更新

文本情感分析 (Text Sentiment Analysis)

1. SST (Stanford Sentiment Treebank)

  • 基本介绍: 包含了电影评论的数据集,对句子中的每一个短语进行了情绪极性标注。
  • 数据集大小: 包含215,154个短语。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 情感分析。
  • 官网: SST
  • 出品方: 斯坦福大学
  • 年份: 2013

2. SemEval

  • 基本介绍: SemEval是一个自然语言处理领域的评测活动,提供了多种任务,包括情感分析。
  • 数据集大小: 根据不同子任务而有所不同。
  • 是否支持中文: 部分任务提供中文数据。
  • 主要适合做什么测试: 多种文本分析任务,包括情感分析。
  • 官网: SemEval
  • 出品方: 国际自然语言处理研究社区
  • 年份: 每年都有新的任务

3. IMDb Reviews

  • 基本介绍: 包含电影评论的文本情感分析数据集,可以用来训练情感分析模型来发现评论的情绪倾向。
  • 数据集大小: 包含50,000条电影评论。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 文本情感分析。
  • 官网: IMDb Reviews
  • 出品方: 斯坦福大学
  • 年份: 2011

4. Yelp Review Dataset

  • 基本介绍: 包含餐馆评论的数据集,含有评论内容及星级评价,适合用于情感分析。
  • 数据集大小: 包含数百万条评论。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 情感分析、文本分类。
  • 官网: Yelp Dataset Challenge
  • 出品方: Yelp
  • 年份: 持续更新

5. Twitter Sentiment Analysis

  • 基本介绍: 基于Twitter平台的用户发文,用于情感分析任务。
  • 数据集大小: 通常包含数千到数百万个推文。
  • 是否支持中文: 部分资源可能包含多语言数据,包括中文

支持中文**: 是,包含联合国六种官方语言的平行语料。

  • 主要适合做什么测试: 多语言翻译、大规模翻译系统训练与评估。
  • 官网: UN Parallel Corpus
  • 出品方: 联合国
  • 年份: 持续更新

5. Europarl

  • 基本介绍: 欧洲议会演讲记录平行语料库,包含欧盟会议记录的多种语言翻译。
  • 数据集大小: 包含6900万单词文本,21种欧盟官方语言。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 欧洲语言机器翻译、自然语言处理研究。
  • 官网: Europarl
  • 出品方: 欧盟统计机器翻译 (StatMT)项目
  • 年份: 持续更新

图像分类 (Image Classification)

1. ImageNet

  • 基本介绍: 大规模图像数据集,用于图像分类和对象识别研究,图像根据WordNet层次进行分类。
  • 数据集大小: 超过1,400万张图像,20,000多个类别。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 图像分类、计算机视觉算法评估。
  • 官网: ImageNet
  • 出品方: 斯坦福大学
  • 年份: 2009

2. CIFAR-10/CIFAR-100

  • 基本介绍: 两个数据集包含了小尺寸图像的分类,分别是10类和100类图像。
  • 数据集大小: CIFAR-10包含60,000张32x32彩色图像,CIFAR-100包含同样数量的图像但分为100类。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 小尺寸图像的分类任务。
  • 官网: CIFAR
  • 出品方: 加拿大多伦多大学
  • 年份: 2009

3. Caltech-101/Caltech-256

  • 基本介绍: 包含了多种不同类别的图像集,旨在用于对象识别和计算机视觉研究。
  • 数据集大小: Caltech-101有约9千张图像,101个类别;Caltech-256有约3万张图像,256个类别。
  • 是否支持中文: 不支持。
  • 主要适合做什么测试: 图像分类和视觉对象识别。
  • 官网: Caltech101 / Caltech256
  • 出品方: 加州理工学院
  • 年份: 2004/2007

4. STL-10

  • 基本介绍: 这个数据集旨在用于机器学习和图像识别的算法学习,包含10类图像,目的是评估在标注数据较少时的无监督学习效果。
  • 数据集大小: 包含5,000张训练图像,8,000张测试图像,96x96像素。
  • 是否支持中文: 不支持。
  • 是否支持中文: 是。
  • 主要适合做什么测试: 大规模机器翻译,尤其适用于国际组织的文档。
  • 官网: UN Parallel Corpus
  • 出品方: 联合国
  • 年份: 持续更新

5. Europarl Parallel Corpus

  • 基本介绍: 欧洲议会辩论记录构建的多语言平行语料库,用于研究机器翻译和其他语言技术。
  • 数据集大小: 包括21种欧洲语言,共计约60百万个句子对。
  • 是否支持中文: 不支持,主要是欧洲语言。
  • 主要适合做什么测试: 机器翻译模型训练和评估。
  • 官网: Europarl Parallel Corpus
  • 出品方: 欧洲议会
  • 年份: 持续更新

 

 

### 多模态大模型心理情感数据集 对于训练多模态大型模型中的心理情感识别,存在多种可用的数据集。这些数据集通常包含了来自不同模式的信息,比如文本、图像以及音频等。 #### IEMOCAP 数据集 IEMOCAP 是一个多模态的情感语料库,它由五名演员参与录制而成。该数据集中不仅有对话的文字记录还有对应的视频片段和声音文件。这使得研究人员能够利用多个感官输入来提高情绪检测的准确性[^1]。 ```python import torch from datasets import load_dataset dataset = load_dataset('iemocap') print(dataset['train'][0]) ``` #### AffectNet 数据集 AffectNet 提供了大量的面部表情图片及其标注的情绪类别标签。此资源可以用来增强视觉理解能力,在处理涉及人类互动场景的任务时特别有用。通过结合其他形式的感觉信息(如语音),可进一步提升系统的性能表现[^2]。 ```python from torchvision.datasets import ImageFolder from transformers import AutoFeatureExtractor, ResNetForImageClassification feature_extractor = AutoFeatureExtractor.from_pretrained("microsoft/resnet-50") model = ResNetForImageClassification.from_pretrained("microsoft/resnet-50") affect_net_path = "/path/to/affectnet" dataset = ImageFolder(affect_net_path) for image, label in dataset: inputs = feature_extractor(image.convert("RGB"), return_tensors="pt") outputs = model(**inputs) logits = outputs.logits ``` #### MELD (Multimodal EmotionLines Dataset) 数据集 MELD 是一个基于电影剧本创建的大规模多模态情感分析数据库。其特色在于提供了丰富的上下文环境描述,并且每条记录都关联着特定角色所说的话。这对于理解和预测复杂社会情境下的个体反应非常有价值[^3]。 ```python meld_data = load_dataset('meld', 'dialogue') def show_example(index=0): example = meld_data['train'][index] print(f"Speaker: {example['speaker']}") print(f"Dialouge: {example['text']}") print(f"Emotion Label: {example['emotion']}") show_example() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大F的智能小课

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值