大家好,我是大 F,深耕AI算法十余年,互联网大厂技术岗。分享AI算法干货、技术心得。
欢迎关注《大模型理论和实战》、《DeepSeek技术解析和实战》,一起探索技术的无限可能!
视觉问答 (Visual Question Answering)
1. VQA Dataset
- 基本介绍: 基于现实世界图片的开放式视觉问答数据集,提供图像以及一系列对这些图像的问题。
- 数据集大小: 约204,721张图片,超过614,163个问题。
- 是否支持中文: 存在部分研究中的中文翻译版本。
- 主要适合做什么测试: 视觉问答。
- 官网: Visual Question Answering
- 出品方: Georgia Tech, Facebook AI Research
- 年份: 2015
2. GQA Dataset
- 基本介绍: 图像视觉问答数据集,着重于视觉场景深入理解和推理。
- 数据集大小: 113K图像,22M问题答案对。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 视觉问答和视觉理解。
- 官网: GQA
- 出品方: Stanford University
- 年份: 2019
3. CLEVR
- 基本介绍: 包含合成图像以评估视觉问答和推理模型,使用具有明确结构的场景和问题。
- 数据集大小: 100K图像和850K问题。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 视觉推理和逻辑问答。
- 官网: CLEVR
- 出品方: Stanford University
- 年份: 2017
4. KVQA (Knowledge-based VQA)
- 基本介绍: 结合了知识图谱的视觉问答数据集。
- 数据集大小: 24,000张图像和183,000个问题答案对。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 结合外部知识库的视觉问答任务。
- 官网: KVQA
- 出品方: N/A
- 年份: N/A
5. TDIUC (Task-Directed Image Understanding Challenge)
- 基本介绍: VQA的变体,包括不同类型的视觉问答任务。
- 数据集大小: 包含167,437个问题,来自14个不同类别。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 视觉问答的多任务性能测试。
- 官网: TDIUC
- 出品方: Virginia Tech, Georgia Tech
- 年份: N/A
图像标注 (Image Captioning)
1. MSCOCO Captions
- 基本介绍: 包含现实世界自然场景图片以及对应的文本描述。
- 数据集大小: 超过123,000张图片,5个或更多不同标注员的标注。
- 是否支持中文: 有中文翻译版本。
- 主要适合做什么测试: 自动生成图片文本描述。
- 官网: MSCOCO Captions
- 出品方: Microsoft
- 年份: 2014
2. Flickr30k
- 基本介绍: 包含现实世界图片和对应的5条文本描述。
- 数据集大小: 约31,000张图片,累计约155,000条描述。
- 是否支持中文: 有Flickr30k中文版本。
- 官网: Flickr30k
- 出品方: University of Illinois at Urbana-Champaign
- 年份: 2015
3. Flickr8k
- 基本介绍: 每张图片配有5个人类编写的描述,注重日常场景的多样性。
- 数据集大小: 约8,000张图片,总计40,000个文本描述。
- 是否支持中文: 有部分中文翻译。
- 主要适合做什么测试: 图像描述的生成与评估。
- 官网: Flickr8k
- 出品方: University of Illinois at Urbana-Champaign
- 年份: 2013
4. AI Challenger Global Context Annotation
- 基本介绍: 该数据集提供了大规模的图像标注数据集,针对中国用户进行了优化,图像配有中文注释。
- 数据集大小: 超过30万张图片,每张配有三条中文描述。
- 是否支持中文: 是。
- 主要适合做什么测试: 中文图像描述的生成与评估。
- 官网: AI Challenger
- 出品方: Sinovation Ventures
- 年份: 2017
5. SBU Captioned Photo Dataset
- 基本介绍: 该数据集从Flickr收集图像,并自动摘取与之相关的描述性文本。
- 数据集大小: 约1百万张图片。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 图像描述生成与关联。
- 官网: SBU Captioned Photo Dataset
- 出品方: Stony Brook University
- 年份: 2011
文本图像检索 (Text-Image Retrieval)
1. MSCOCO (Microsoft Common Objects in Context)
- 基本介绍: MSCOCO 提供了大量不同场景的图像和对应的标注信息,包括对象检测、区域性标注和标注文本。
- 数据集大小: 超过200,000张图像,1.5百万个对象实例。
- 是否支持中文: 有部分研究中的中文翻译版本。
- 主要适合做什么测试: 物体分类、检测和图像检索。
- 官网: MSCOCO
- 出品方: Microsoft
- 年份: 2014
2. Flickr30k Entities
- 基本介绍: Flickr30k的扩展,附带了对图片描述中的短语的位置信息。
- 数据集大小: 约31,000张图片。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 文本到图像的检索,标注与词组定位。
- 官网: Flickr30k Entities
- 出品方: University of Illinois at Urbana-Champaign
- 年份: 2015
3. Google Open Images Dataset
- 基本介绍: 提供了大量的图像,并包含了图片中对象的标注。
- 数据集大小: 超过900万张图像,含有图像级标签到对象级标注。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 对象检测、图像分类和关联检索。
- 官网: Open Images Dataset
- 出品方: Google
4. CUB-200-2011
- 基本介绍: 加州大学伯克利分校的CUB-200-2011是一个集中在200种不同鸟类的细粒度图像分类任务的数据集,其中图片中的鸟类都间接通过文本描述。
- 数据集大小: 包含11,788张图像与对应的细粒度标注。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 文本到图像的颗粒度检索与分类。
- 官网: CUB-200-2011
- 出品方: 加州理工学院
- 年份: 2011
5. Paris500k and Oxford5k
- 基本介绍: 这两个数据集包含了分别来自巴黎和牛津的知名地点图片,每个数据集都包括大量地点的图片和详细的标注,适合检索和识别具体的地标。
- 数据集大小: Paris500k包括约500,000张图像,Oxford5k包括约5,000张图像。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 针对地标的图像检索与识别。
- 官网: Paris500k 和 Oxford5k
- 出品方: 牛津大学视觉几何组
- 年份: 不明确
视觉语义分割 (Visual Semantic Segmentation)
1. Cityscapes
- 基本介绍: 此数据集用于城市街景的理解,包含欧洲不同城市的街景图像,提供了精细的像素级标注。
- 数据集大小: 包含5,000张图像的精细标注以及20,000张带粗糙标注的图像。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 城市街道场景中的语义分割。
- 官网: Cityscapes
- 出品方: 由德国斯图加特大学和公司Max Planck Institute for Informatics 的研究者创建
- 年份: 2016
2. PASCAL VOC
- 基本介绍: 旨在推动计算机视觉领域的进步,提供了图像级标注、对象检测和分割等任务标注的图像。
- 数据集大小: 不同年份有不同规模,例如VOC2012包括~11,000张图像。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 图像分类、对象检测、图像分割。
- 官网: PASCAL VOC
- 出品方: University of Oxford
- 年份: 每年更新,2007-2012
3. COCO-Stuff
- 基本介绍: 基于MSCOCO数据集,额外提供了图像中每个像素属于哪一种"stuff"类别的标注(如天空、地面、水面等)。
- 数据集大小: 包含10,000张图像和91个"stuff"类别。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 语义分割,尤其是对于非对象类别。
- 官网: COCO-Stuff Dataset | Papers With Code
4. SUN RGB-D
- 基本介绍: 此数据集是室内场景理解的一个RGB-D数据集,包括RGB图片以及与之对应的深度图像,提供像素级和物体级的标注。
- 数据集大小: 包含10,000张带有标注的RGB-D图像。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 室内场景的语义分割和物体检测。
- 官网: SUN RGB-D
- 出品方: 普林斯顿大学、布朗大学、斯坦福大学
- 年份: 2015
5. CamVid
- 基本介绍: 是自动驾驶汽车视角的街道场景数据集,提供了视频序列及其对应的像素级标注。
- 数据集大小: 包括701张标注好的图像,及4个序列的无标注视频。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 视频序列的语义分割。
- 官网: CamVid
- 出品方: 剑桥大学机器智能实验室
- 年份: 2008
视觉跟踪 (Visual Tracking)
1. OTB (Object Tracking Benchmark)
- 基本介绍: 这是视觉跟踪领域的一个经典数据集,由各种各样的真实视频构成,注重评估对象跟踪的性能。
- 数据集大小: 包括100个视频序列。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 对象跟踪算法性能评估。
- 官网: OTB
- 出品方: 哈尔滨工业大学
- 年份: 2013
2. VOT (Visual Object Tracking challenge)
- 基本介绍: 旨在追踪视频中单个对象的数据集,每年都会进行跟踪挑战,提供新的数据集进行算法比较。
- 数据集大小: 每年的数据集不同,包含数十到数百个视频序列。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 对象跟踪。
- 官网: VOT Challenge
- 出品方: VOT committee
- 年份: 每年举办新的挑战
3. UAV123
- 基本介绍: 无人机视角捕获的对象跟踪数据集,要求模型在高动态和小对象场景下实现稳定跟踪。
- 数据集大小: 包括123个视频序列。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 在无人机视频中进行对象跟踪。
- 官网: UAV123
- 出品方: IVUL - KAUST
- 年份: 2016
4. LaSOT
- 基本介绍: 数据集包括了丰富多样的场景下的大规模、高质量的单对象跟踪视频序列。
- 数据集大小: 包括1400个视频序列,超过3.5百万帧。
- 是否支持中文: 不支持。
- 主要适合做什么测试:对象跟踪
- 官网: LaSOT
- 出品方: Temple University
- 年份: 2019
5. GOT-10k
- 基本介绍: 是一个专注于跟踪通用对象的大规模数据集,含有各种运动物体和背景。
- 数据集大小: 包含超过10,000个视频片段和超过1.5百万个标注帧。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 跨类别通用对象跟踪。
- 官网: GOT-10k
- 出品方: AI Test
- 年份: 2019
视听多模态融合 (Audio-Visual Multi-Modal Fusion)
1. AVA Speech
- 基本介绍: 专注于人为环境中语音活动检测的数据集,提供视觉帧和对应的音频。
- 数据集大小: 包括超过15万个标注的视频片段。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 视听活动检测。
- 官网: AVA Speech
- 出品方: Google
- 年份: N/A
2. LRS2 (Lip Reading Sentences 2)
- 基本介绍: 包括数百小时的BBC节目视频和对应的英文语音字幕,用于视听语音识别和唇读任务。
- 数据集大小: 数百小时视频材料。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 唇读和视听语音识别。
- 官网: LRS2
- 出品方: University of Oxford
- 年份: 2017
3. AudioSet
- 基本介绍: 包含来自YouTube视频的广泛音频标签数据集,标注了多种环境下的声音事件。
- 数据集大小: 超过200万个10秒级别的音频片段。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 环境声音识别。
- 官网: AudioSet
- 出品方: Google
- 年份: 2017
4. AVA-Kinetics
- 基本介绍: 结合AVA数据集的视觉动作识别和Kinetics数据集的音频信息,用于视听事件识别。
- 数据集大小: 包括约230,000个视频片段。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 视听动作识别。
- 官网: AVA-Kinetics
- 出品方: Google
- 年份: 2020
5. VoxCeleb
- 基本介绍: 提供了大量名人的视频片段以及音频,用于识别人声和面部。
- 数据集大小: 包括超过1百万个视频片段,涉及7,000多个名人。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 人声识别和面部识别。
- 官网: VoxCeleb
- 出品方: University of Oxford
- 年份: 2017
长期单对象跟踪(long-term single object tracking)。
- 官网: LaSOT
- 出品方: Temple University
- 年份: 2019
5. GOT-10k
- 基本介绍: 是一个大规模通用对象跟踪数据集,包含上万段视频和超过100种对象类别。
- 数据集大小: 包括超过10,000个视频片段,覆盖了多达560个对象类别。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 广义对象跟踪性能评估。
- 官网: GOT-10k
- 出品方: 多所中国大学共同合作
- 年份: 2019
交互式视频对象分割 (Interactive Video Object Segmentation)
1. DAVIS (Densely Annotated VIdeo Segmentation)
- 基本介绍: 提供高质量的视频对象分割标注,数据集旨在对视频中的对象进行逐帧分割。
- 数据集大小: 包括150段视频序列。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 视频对象分割。
- 官网: DAVIS
- 出品方: Interactive Visual Media Group - ETH Zurich, Universitat Politecnica de Catalunya, University of Oxford
- 年份: 2017
2. YouTube-VOS
- 基本介绍: 目前最大的视频对象分割数据集,提供了精确的像素级别标注,并包含多个对象类别。
- 数据集大小: 包括4,453个YouTube视频片段,涉及94个对象类别。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 视频对象分割。
- 官网: YouTube-VOS
- 出品方: University of California, Berkeley
- 年份: 2018
3. SegTrack v2
- 基本介绍: 是一个基准数据集,用于评估视频中的对象分割性能。
- 数据集大小: 包括14个带多个对象的视频序列。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 视频对象分割。
- 官网: SegTrack v2
- 出品方: Oregon State University
- 年份: 2013
4. FBMS (Freiburg-Berkeley Motion Segmentation)
- 基本介绍: 数据集提供了59个视频序列,用于评估运动分割算法。
- 数据集大小: 包括59个视频序列。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 运动驱动的视频对象分割。
- 官网: FBMS
- 出品方: University of Freiburg, University of California, Berkeley
- 年份: 2015
5. YouTube-Objects
- 基本介绍: 数据集包含来自YouTube的视频,并提供了10个类别对象的分割标注。
- 数据集大小: 包括约5,500个视频。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 视频中特定类别对象的分割。
- 官网: YouTube-Objects
- 出品方: Ecole Normale Superieure
多模态理解 (Multimodal Understanding)
1. MM-IMDb (Multimodal IMDb)
- 基本介绍: 影视作品的多模态数据集,包含电影海报图像、元数据以及文本描述(如剧情简介)等。
- 数据集大小: 包含25,959部电影。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 多模态情感分析和电影类型分类。
- 官网: MM-IMDb
- 出品方: Universidad Nacional de Colombia
- 年份: 2017
2. AVA (Audio-Visual-Articulatory)
- 基本介绍: 包含语音、视频及对口型动作的多模态数据集,用于语音识别研究。
- 数据集大小: 超过100小时的多模态数据。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 音视频自动语音识别。
- 官网: AVA
- 出品方: AVA Project Consortium
- 年份: N/A
3. M-VAD Names (Montreal Video Annotation Dataset)
- 基本介绍: 提供了丰富的电影视频片段和对应的人工书写的描述文本。
- 数据集大小: 包含49,000多个视频片段,自78部电影。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 视频描述生成。
- 官网: M-VAD Names
- 出品方: Carnegie Mellon University
- 年份: 2015
4. VQA-Med (Visual Question Answering in the Medical Domain)
- 基本介绍: 医学领域的视觉问答数据集,包含医学图像和相关的问答对。
- 数据集大小: 包含至少3,000张图像和12,792个问答对。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 医学视觉问答。
- 官网: VQA-Med
- 出品方: ImageCLEF
- 年份: 2019
5. xMediaNet (Cross-Media Network)
- 基本介绍: 为跨媒体检索而提供的多模态数据集,包括文本、图像、视频等内容。
- 数据集大小: 包含超过100,000条多模态数据。
- 是否支持中文: 是。
- 主要适合做什么测试: 跨媒体检索、多模态深度学习等。
- 官网: xMediaNet
- 出品方: 中国科学技术大学
- 年份: 2017
自然语言理解 (Natural Language Understanding)
1. GLUE (General Language Understanding Evaluation)
- 基本介绍: NLU任务的一个集合,包括文本蕴涵、情感分析、文本相似性等多个子任务。
- 数据集大小: 包含数个不同的NLU任务集合。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 广泛的自然语言理解能力。
- 官网: GLUE Benchmark
- 出品方: NYU, U Washington, DeepMind
- 年份: 2018
2. SNLI (Stanford Natural Language Inference)
- 基本介绍: 文本蕴含数据集,包括一组句子对以及它们之间是矛盾
3. MultiNLI (Multi-Genre Natural Language Inference)
- 基本介绍: 包含各种类型的文本(如小说、电话对话等),目标是判断句子对之间的关系。
- 数据集大小: 大约433K个句子对。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 文本蕴含和推理。
- 官网: MultiNLI
- 出品方: New York University
- 年份: 2017
4. CoLA (Corpus of Linguistic Acceptability)
- 基本介绍: 包含了英语句子集合,并标记了它们的语法是否可接受。
- 数据集大小: 约10.6K个句子。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 句子语法合规性判断。
- 官网: CoLA
- 出品方: New York University
- 年份: 2018
5. SQuAD (Stanford Question Answering Dataset)
- 基本介绍: 阅读理解数据集,包含问题和答案对,其中答案是可从原文中抽取的文本片段。
- 数据集大小: SQuAD 1.1包含10万个问题,SQuAD 2.0包含15万个问题。
- 是否支持中文: 有SQuAD 2.0的中文翻译版本。
- 主要适合做什么测试: 阅读理解和问答。
- 官网: SQuAD
- 出品方: Stanford University
- 年份: 1.1 - 2016, 2.0 - 2018
对话系统 (Dialogue Systems)
1. MultiWOZ (Multi-Domain Wizard-of-Oz)
- 基本介绍: 对话数据集,覆盖多个领域并包含了任务型对话。
- 数据集大小: 大约10K个多领域对话场景。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 对话系统、任务型对话理解。
- 官网: MultiWOZ
- 出品方: University of Cambridge
- 年份: 2018
2. DailyDialog
- 基本介绍: 包含日常沟通场景对话的数据集,关注于情感表达和对话行为。
- 数据集大小: 包含13,118个对话。
- 是否支持中文: 支持中文。
- 主要适合做什么测试: 对话系统、情感分析。
- 官网: DailyDialog
- 出品方: 中国科学院
- 年份: 2017
3. Cornell Movie-Dialogs Corpus
- 基本介绍: 该数据集来自电影中的对话,适合研究对话系统和情感分析。
- 数据集大小: 包含220,579个对话及42,000多部电影与百万级的对话行为。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 对话生成、对话情感分析。
- 官网: Cornell Movie-Dialogs Corpus
- 出品方: Cornell University
- 年份: 不明确
4. DSTC (Dialogue State Tracking Challenges)
- 基本介绍: 一系列旨在推动对话状态追踪技术发展的一系列挑战赛,每一轮挑战都关注于对话系统中的一个具体任务或问题。
- 数据集大小: 随着每一轮挑战的不同而异。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 对话状态追踪、对话系统评估。
- 官网: DSTC
- 出品方: 多个研究机构合作
- 年份: 每年更新
5. ConvAI2 (Conversational Intelligence Challenge 2)
- 基本介绍: 基于PersonaChat数据集的对话系统挑战,旨在测试系统的个性化对话生成能力。
- 数据集大小: 包含11,000个由机器和人类生成的对话。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 个性化对话生成。
- 官网: ConvAI2
- 出品方: Facebook AI Research, MIPT, Neural Networks and Deep Learning lab
- 年份: 2018
机器翻译 (Machine Translation)
1. WMT (Workshop on Machine Translation)
- 基本介绍: WMT是一系列评估机器翻译系统性能的比赛,每年提供多种语言对的数据集。
- 数据集大小: 每年不同,包含数百万到数十亿词的数据集。
- 是否支持中文: 包含中英文互译等多种语言对。
- 主要适合做什么测试: 机器翻译、翻译系统评估。
- 官网: WMT
- 出品方: 多个研究团队协作组织
- 年份: 每年更新
2. IWSLT (International Workshop on Spoken Language Translation)
- 基本介绍: 针对口语翻译的评比工作坊,提供包含TED演讲的多语言数据集。
- 数据集大小: 依赛事年份不同,通常包括数十个小时的语音及其文本翻译。
- 是否支持中文: 包含中文在内的多种语言。
- 主要适合做什么测试: 口语翻译、实时翻译系统评估。
- 官网: IWSLT
- 出品方: 多个研究团队协作组织
- 年份: 每年更新
3. Tatoeba
- 基本介绍: 包含多种语言的简短翻译句子对,适用于小范围的机器翻译训练和测试。
- 数据集大小: 包含数百万条句子对。
- 是否支持中文: 是,包含中文及其它多种语言间的翻译。
- 主要适合做什么测试: 多语言对照翻译、翻译精度测试。
- 官网: Tatoeba
- 出品方: Tatoeba项目社区
- 年份: 持续更新
4. UN Parallel Corpus
- 基本介绍: 联合国多语言平行语料库,包含六种官方语言(阿拉伯语、中文、英语、法语、俄语、西班牙语)的文档翻译。
- 数据集大小: 包含数百万条句子对。
- 是否支持中文: 是。
- 主要适合做什么测试: 大规模机器翻译,尤其适用于国际组织的文档。
- 官网: UN Parallel Corpus
- 出品方: 联合国
- 年份: 持续更新
5. OPUS
- 基本介绍: 一个开放的多语言翻译库,收集了很多不同来源的双语或多语言文本。
- 数据集大小: 包含超过100种语言对,数十亿词的数据。
- 是否支持中文: 是,包含中文与多种语言对的翻译。
- 主要适合做什么测试: 机器翻译。
- 官网: OPUS
- 出品方: 翻译研究和开发团队
- 年份: 持续更新
文本情感分析 (Text Sentiment Analysis)
1. SST (Stanford Sentiment Treebank)
- 基本介绍: 包含了电影评论的数据集,对句子中的每一个短语进行了情绪极性标注。
- 数据集大小: 包含215,154个短语。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 情感分析。
- 官网: SST
- 出品方: 斯坦福大学
- 年份: 2013
2. SemEval
- 基本介绍: SemEval是一个自然语言处理领域的评测活动,提供了多种任务,包括情感分析。
- 数据集大小: 根据不同子任务而有所不同。
- 是否支持中文: 部分任务提供中文数据。
- 主要适合做什么测试: 多种文本分析任务,包括情感分析。
- 官网: SemEval
- 出品方: 国际自然语言处理研究社区
- 年份: 每年都有新的任务
3. IMDb Reviews
- 基本介绍: 包含电影评论的文本情感分析数据集,可以用来训练情感分析模型来发现评论的情绪倾向。
- 数据集大小: 包含50,000条电影评论。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 文本情感分析。
- 官网: IMDb Reviews
- 出品方: 斯坦福大学
- 年份: 2011
4. Yelp Review Dataset
- 基本介绍: 包含餐馆评论的数据集,含有评论内容及星级评价,适合用于情感分析。
- 数据集大小: 包含数百万条评论。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 情感分析、文本分类。
- 官网: Yelp Dataset Challenge
- 出品方: Yelp
- 年份: 持续更新
5. Twitter Sentiment Analysis
- 基本介绍: 基于Twitter平台的用户发文,用于情感分析任务。
- 数据集大小: 通常包含数千到数百万个推文。
- 是否支持中文: 部分资源可能包含多语言数据,包括中文
支持中文**: 是,包含联合国六种官方语言的平行语料。
- 主要适合做什么测试: 多语言翻译、大规模翻译系统训练与评估。
- 官网: UN Parallel Corpus
- 出品方: 联合国
- 年份: 持续更新
5. Europarl
- 基本介绍: 欧洲议会演讲记录平行语料库,包含欧盟会议记录的多种语言翻译。
- 数据集大小: 包含6900万单词文本,21种欧盟官方语言。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 欧洲语言机器翻译、自然语言处理研究。
- 官网: Europarl
- 出品方: 欧盟统计机器翻译 (StatMT)项目
- 年份: 持续更新
图像分类 (Image Classification)
1. ImageNet
- 基本介绍: 大规模图像数据集,用于图像分类和对象识别研究,图像根据WordNet层次进行分类。
- 数据集大小: 超过1,400万张图像,20,000多个类别。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 图像分类、计算机视觉算法评估。
- 官网: ImageNet
- 出品方: 斯坦福大学
- 年份: 2009
2. CIFAR-10/CIFAR-100
- 基本介绍: 两个数据集包含了小尺寸图像的分类,分别是10类和100类图像。
- 数据集大小: CIFAR-10包含60,000张32x32彩色图像,CIFAR-100包含同样数量的图像但分为100类。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 小尺寸图像的分类任务。
- 官网: CIFAR
- 出品方: 加拿大多伦多大学
- 年份: 2009
3. Caltech-101/Caltech-256
- 基本介绍: 包含了多种不同类别的图像集,旨在用于对象识别和计算机视觉研究。
- 数据集大小: Caltech-101有约9千张图像,101个类别;Caltech-256有约3万张图像,256个类别。
- 是否支持中文: 不支持。
- 主要适合做什么测试: 图像分类和视觉对象识别。
- 官网: Caltech101 / Caltech256
- 出品方: 加州理工学院
- 年份: 2004/2007
4. STL-10
- 基本介绍: 这个数据集旨在用于机器学习和图像识别的算法学习,包含10类图像,目的是评估在标注数据较少时的无监督学习效果。
- 数据集大小: 包含5,000张训练图像,8,000张测试图像,96x96像素。
- 是否支持中文: 不支持。
- 是否支持中文: 是。
- 主要适合做什么测试: 大规模机器翻译,尤其适用于国际组织的文档。
- 官网: UN Parallel Corpus
- 出品方: 联合国
- 年份: 持续更新
5. Europarl Parallel Corpus
- 基本介绍: 欧洲议会辩论记录构建的多语言平行语料库,用于研究机器翻译和其他语言技术。
- 数据集大小: 包括21种欧洲语言,共计约60百万个句子对。
- 是否支持中文: 不支持,主要是欧洲语言。
- 主要适合做什么测试: 机器翻译模型训练和评估。
- 官网: Europarl Parallel Corpus
- 出品方: 欧洲议会
- 年份: 持续更新