【干货】二十五个深度学习相关公开数据集
(选自Analytics Vidhya;作者:Pranav Dar;磐石编译)
目录
介绍
图像处理相关数据集
自然语言处理相关数据集
语音处理相关数据集
Supplement
一.介绍
通常来说,深度学习的关键在于实践。从图像处理到语音识别,每一个细分领域都有着独特的细微差别和解决方法。
然而,你可以从哪里获得这些数据呢?现在大家所看到的大部分研究论文都用的是专有数据集,这些专有数据集又通常不会公开。那么,想实践那些最新的理论方法往往就成了难题。
如果你也遇到了这样的问题,接下来我们会提供了一系列可用的公开数据集给大家。
在本文中,我们列出了一系列高质量的数据集,每个深度学习爱好者都可以使用这些数据集来提高自己的能力。应用这些数据集将使您成为一名更好的数据科学家,并且您从中获得的东西将在您的职业生涯中具有无可估量的价值。我们还收录了具有当前最好结果(SOTA)的论文,供您浏览并改进您的模型。
如何使用这些数据集?
首先要做的事:这些数据集的规模很大!所以请确保你的网络够快,确保下载没有任何限制。
有很多种方式可以使用这些数据集。比如:你可以使用它们来锻炼你的各种深度学习方法技巧;你可以使用它们来磨练你的技能,了解如何识别和构建每个问题,思考独特的使用案例和公布你的新发现!
数据集分为三类:图像处理相关数据集,自然语言处理相关数据集和语音处理相关数据集。
二.图像处理相关数据集
1. MNIST (https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-digits/)
MNIST是最受欢迎的深度学习数据集之一。它是一个手写数字数据集,包含一个60,000个样本的训练集和一个10,000个样本的测试集。这是一个很不错的数据集,它可用于在实际数据中尝试学习技术和深度识别模式,并且它花费极少的时间和精力在数据预处理上。
大小:约50 MB
数量: 10个类别,70,000张图片
SOTA:Dynamic Routing Between Capsules
(https://arxiv.org/pdf/1710.09829.pdf)
2. MS-COCO
(https://mp.weixin.qq.com/cgi-bin/appmsg?t=media/appmsg_edit_v2&action=edit&isNew=1&type=10&token=1276755825&lang=zh_CN#home)
COCO是一个可用于object detection, segmentation and caption的大型数据集。有以下特点:
目标分割
上下文关系识别
超像素分割
330K图像(> 200K已标记)
150万个目标
80个分类
91种目标
每张图片5个字幕
包含250,000个人(已标记)
大小:约25 GB(压缩包)
数量: 330K张图像,80个对象类别,每个图像5个描述,25万个人(已标记)
SOTA: Mask R-CNN
(https://arxiv.org/pdf/1703.06870.pdf)
3. ImageNet
(https://arxiv.org/pdf/1703.06870.pdf)
ImageNet是基于WordNet层次结构组织的图像数据集。WordNet包含约100,000个短语,ImageNet平均提供了约1000个图像来说明每个短语。
大小:约150GB
数量:图像总数约1,500,000; 每个都有多个边界框和相应的类标签。
SOTA: Aggregated Residual Transformations for Deep Neural Networks
(https://arxiv.org/pdf/1611.05431.pdf)
4. Open Images Dataset
(https://github.com/openimages/dataset)
Open Images Dataset是一个包含超过900万个链接图像的数据集。其中包含9,011,219张图像的训练集,41,260张图像的验证集以及125,436张图像的测试集。它的图像种类跨越数千个类别,且有图像层级的标注框进行注释。
大小: 500 GB(压缩包)
数量: 9,011,219张超过5k标签的图像
SOTA: Resnet 101 image classification model (trained on V2 data):Model checkpoint, Checkpoint readme, Inference code.
(https://storage.googleapis.com/openimages/2017_07/oidv2-resnet_v1_101.ckpt.tar.gz)
5. VisualQA (http://www.visualqa.org/)
VQA是一个包含有关图像的开放式问题的数据集。这些问题需要理解视野和语言。有以下有意思的特点:
265,016张图片(COCO和抽象场景)
每张图片至少有3个问题(平均5.4个问题)
每个问题10个基本事实
每个问题3个似乎合理(但可能不正确)的答案
指标自动评估
大小: 25 GB(压缩包)
数量: 265,016张图片,每张图片至少3个问题,每个问题10个基本事实
SOTA: Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge(https://arxiv.org/abs/1708.02711)
6. The Street View House Numbers (SVHN)
(http://ufldl.stanford.edu/housenumbers/)
这是一个为训练目标检测算法而“真实”存在的一个图像数据集–来自于谷歌街景中的房屋号码。它对图像预处理和格式要求较低。与上边提到的MNIST数据集类似,但SVHN包含更多的标记数据(超过600,000个图像)。
大小: 2.5 GB
数量: 10个类别,共6,30,420张图片
SOTA:Distributional Smoothing With Virtual Adversarial Training(https://arxiv.org/pdf/1507.00677.pdf)
7. CIFAR-10
(http://www.cs.toronto.edu/~kriz/cifar.html)
这个数据集是图像分类的另一个神级入门数据集。它由10个类别60,000个图像组成(每个类在上图中表示为一行)。总共有50,000个训练图像和10,000个测试图像。数据集分为6个部分 - 5个训练批次(training batches)和1个测试批次(test batches)。每个批次(batch)有10,000个图像。
大小:170 MB
数量:10个类别,共60,000张图片
SOTA:ShakeDrop regularization(https://openreview.net/pdf?id=S1NHaMW0b)
8. Fashion-MNIST (https://github.com/zalandoresearch/fashion-mnist)
Fashion-MNIST包含60,000个训练图像和10,000个测试图像。它是一个类似MNIST的时尚产品数据库。开发人员认为MNIST已被过度使用,因此他们将其作为该数据集的直接替代品。每张图片都以灰度显示,并与10个类别的标签相关联。
大小:30 MB
数量:10个类,70,000张图片
SOTA:Random Erasing Data Augmentation(https://arxiv.org/abs/1708.04896)
三.自然语言处理相关数据集
1.IMDB Reviews
(http://ai.stanford.edu/~amaas/data/sentiment/)
这对电影爱好者来说是一个极棒的数据集。它可用于着二元情感分类,并具有比此领域以前的任何数据集更多的数据。除了用于训练和测试评论数据外,还有更多未标记的数据可供使用。同时该数据集还包含原始文本和预处理单词格式包。
大小:80 MB
数量:25,000条高质量影评用于训练,25,000条用于测试
SOTA:Learning Structured Text Representations https://arxiv.org/abs/1705.09207
https://arxiv.org/abs/1705.09207
2.Twenty Newsgroups
https://archive.ics.uci.edu/ml/datasets/Twenty+Newsgroups
顾名思义,该数据集包含着新闻组相关的文本数据信息。这二十个新闻组数据集合收集了大约20,000新闻组文档,均匀的分布在20个不同的集合。这些文档具有新闻的典型特征:主题,作者和引述。
大小:20 MB
数量:来自20个新闻组的20,000条消息
SOTA:Very Deep Convolutional Networks for Text Classification (https://arxiv.org/abs/1606.01781)
3.Sentiment140 (http://help.sentiment140.com/for-students/)
Sentiment140是一个可用于情感分析的数据集。使用这个流行数据集来开启你的NLP旅程是完美的。情绪信息已经从数据中预先删除。最终的数据集具有以下6个特征:
推文的感情色彩(polarity)
推文的ID
推文的日期
推特(tweeter)的用户名
推文的文本内容
大小:80 MB(压缩包)
数量:160,000条推文
SOTA:Assessing State-of-the-Art Sentiment Models on State-of-the-Art Sentiment Datasets http://www.aclweb.org/anthology/W17-5202
4.WordNet https://wordnet.princeton.edu/
在上面的ImageNet数据集中提到,WordNet是一个包含英文synsets的大型数据库。Synsets是指同义词组,每个描述不同的概念。 WordNet的结构使其成为NLP非常有用的工具。
大小:10 MB
数量:通过少量“概念联系”将117,000个同义词集与其他同义词集相关联。
SOTA:Wordnets: State of the Art and Perspectives
https://aclanthology.info/pdf/R/R11/R11-1097.pdf
5.Yelp Reviews https://www.yelp.com/dataset
这是Yelp(美国最大的点评网站)为了学习目的而发布的一个公开数据集。它由数百万用户评论、商业类型和来自多个大型城市的超过20万张照片组成。这在全球都是一个非常常用的NLP挑战级数据集。
大小:2.66 GB JSON,2.9 GB SQL and 7.5 GB Photos(全部已压缩)
数量:5,200,000条评论,174,000条商业类型,20万张图片和11个大型城市
SOTA:Attentive Convolution
6.The Wikipedia Corpus
https://arxiv.org/pdf/1710.00519.pdf
该数据集是维基百科全文的集合。它包含来自400多万篇文章的将近19亿单词。这是个强大的NLP数据集–你可以通过单词,短语或段落来进行检索。
大小:20 MB
数量:4,400,000篇文章,19亿单词
SOTA:Breaking The Softmax Bottelneck: A High-Rank RNN language Model https://arxiv.org/pdf/1711.03953.pdf
7.The Blog Authorship Corpus
http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm
此数据集包含来自数千名博主的博文(收集自blogger.com)。每篇博客都作为一个单独的文件提供。每篇博客至少有着200个常用英语单词。
大小:300 MB
数量:681,288博文,超过1.4亿单词
SOTA:Character-level and Multi-channel Convolutional Neural Networks for Large-scale Authorship Attribution https://arxiv.org/pdf/1609.06686.pdf
8.Machine Translation of Various Languages
http://statmt.org/wmt18/index.html
该数据集包含四种欧洲语言的训练数据。可用于改进当前的翻译方法。有以下语言互译可供参考:
英汉和汉英
英语 - 捷克语和捷克语 - 英语
英语 - 爱沙尼亚语和爱沙尼亚语 - 英语
英语 - 芬兰语和芬兰语 - 英语
英语 - 德语和德语 - 英语
英语 - 哈萨克语和哈萨克语 - 英语
英文 - 俄文和俄文 - 英文
英语 - 土耳其语和土耳其语 - 英语
大小:约15 GB
数量:约30,000,000个句子及其翻译
SOTA:Attention Is All You Need https://arxiv.org/abs/1706.03762
四.语音处理相关数据集
1.Free Spoken Digit Dataset
https://github.com/Jakobovski/free-spoken-digit-dataset
此列表中的另一个与MNIST数据集相似的数据集!为了解决自然语言处理中的数字识别任务而创建。这是一个公开的数据集,并且希望随着人们贡献更多样本来获得持续增长。目前,它包含以下特点:
3个录音者
1500条录音(每个人每个数字50遍
英式发音
大小:10 MB
数量:1500条音频
SOTA:Raw Waveform-based Audio Classification Using Sample-level CNN Architectures https://arxiv.org/pdf/1712.00866
2.Free Music Archive (FMA) https://github.com/mdeff/fma
FMA是一个音乐分析数据集。数据集由音频(full-length and HQ),预先计算的特征( pre-computed features)以及音轨和用户级元数据(metadata)组成。它是一个公开数据集,用来评估MIR中的多项任务。以下是其包含的csv文件列表:
tracks.csv:包含所有(106,574首)曲目的基本信息–ID,标题,艺术家,流派,标签和播放次数。
genres.csv:163种流派的ID(包含名称和之间的关系)
features.csv:基本特征(使用librosa(https://librosa.github.io/librosa/)提取)。
echonest.csv:由Echonest(现在的Spotify)为13129首曲目提供的音频特征。(http://the.echonest.com/) (https://www.spotify.com/)
大小:约1000 GB
数量:约100,000曲目(tracks)
SOTA:Learning to Recognize Musical Genre from Audio
https://arxiv.org/pdf/1803.05337.pdf
3.Ballroom http://mtg.upf.edu/ismir2004/contest/tempoContest/node5.html
该数据集由来自舞厅的音频数据组成。以实际音频格式提供了许多舞蹈风格的一些音频片段。有以下特点:
总数:698
单个时长:约30秒
总时长:约20940秒
大小:14GB(压缩)
数量:约700个音频样本
SOTA: A Multi-Model Approach To Beat Tracking Considering Heterogeneous Music Styles https://pdfs.semanticscholar.org/0cc2/952bf70c84e0199fcf8e58a8680a7903521e.pdf
4.Million Song Dataset https://labrosa.ee.columbia.edu/millionsong/
百万歌曲数据集是由一百万首当代流行音乐曲目的音频特征和元数据组成。其目的是:
鼓励对扩展到商业规模的算法进行研究
为评估研究提供参考数据集
作为使用API创建大型数据集的替代方法(e.g. The Echo Nest)
帮助新研究人员在MIR领域开始工作
数据集的核心是一百万首歌曲的特征分析和元数据。该数据集不包含任何音频,只包含派生的特征。样本音频可以通过使用哥伦比亚大学提供的代码从7digital等服务器上获取。https://labrosa.ee.columbia.edu/millionsong/ http://www.7digital.com/
大小:280 GB
数量:一百万首歌曲哦!
SOTA: Preliminary Study on a Recommender System for the Million Songs Dataset Challenge http://www.ke.tu-darmstadt.de/events/PL-12/papers/08-aiolli.pdf
5.LibriSpeech http://www.openslr.org/12/
该数据集是包含约1000小时英语音频的大型语料库。这些数据来自LibriVox项目的有声读物(audiobooks),且已经过分割、对齐处理。如果您恰好想入门这个领域,请查看已准备好的声学模型(已在kaldi-asr.org和语言模型上进行了训练且适合评估),网址为http://www.openslr.org/11/ http://www.kaldi-asr.org/downloads/build/6/trunk/egs/
大小:约60 GB
数量:1000小时音频
SOTA: Letter-Based Speech Recognition with Gated ConvNets https://arxiv.org/abs/1712.09444
6.VoxCeleb https://mp.weixin.qq.com/cgi-bin/VoxCeleb
VoxCeleb是一个大型的语音识别数据集。它由来自YouTube视频中的1,251名明星所讲的约10万句话组成。这些数据性别分布均衡(男性占55%),名人跨越不同的口音、职业和年龄,训练集和测试集之间没有重叠。通过这个数据集可以实现一个有趣的应用–区分和识别超级巨星
大小:150 MB
数量:1,251位名人的100,000条话语
SOTA:VoxCeleb: a large-scale speaker identification dataset https://www.robots.ox.ac.uk/~vgg/publications/2017/Nagrani17/nagrani17.pdf
五.Supplement
Analytics Vidhya Practice Problems:
为了帮助练习,我们还提供了来自DataHack平台,三个更贴近生活的题目(包含问题+数据集)供练手。当然,肯定是深度学习相关,如下:
1.Twitter Sentiment Analysis
https://datahack.analyticsvidhya.com/contest/practice-problem-twitter-sentiment-analysis/
含有种族主义和性别歧视言论的推文的处理已成为twitter的难题,那么区分识别这些推文就成了twitter的重要任务。在这个实际问题中,我们提供正常推文与非正常推文两种Twitter数据。你的任务是正确区分这些推文。
大小:3 MB
数量:31,962条推文
2.Age Detection of Indian Actors
https://datahack.analyticsvidhya.com/contest/practice-problem-age-detection/
对于任何深度学习爱好者来说,这都是一个令人着迷的挑战。该数据集由数千个印度演员的图片组成,你的任务是确定他们的年龄。所有图像都是从视频帧中人工剪切的,这致使尺度,姿态,表情,亮度(illumination),年龄,分辨率,遮挡和妆容具有高度可变性。
大小:48 MB(压缩包)
数量:训练集19,906幅图像和测试集6636幅图像
SOTA:Hands on with Deep Learning – Solution for Age Detection Practice Problem
https://www.analyticsvidhya.com/blog/2017/06/hands-on-with-deep-learning-solution-for-age-detection-practice-problem/
3. Urban Sound Classification
https://datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/
这个数据集包含超过8000个来自10个类别的城市声音片段。这个实际问题旨在向你介绍对常用分类场景的音频处理。
大小:训练集 - 3 GB(压缩),测试集 - 2 GB(压缩)
数量:10个类别,8732个城市声音片段(单个片段时长<= 4s,已标注)
写在最后:如果你知道其他公开数据集,可以告诉我们(说明推荐原因、详细用途等等)。
如果理由充分,我会把它们列入清单。来评论里讨论你们的使用感受吧。深度学习万岁!
(编译自:https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/)
点击下方“阅读原文”了解【人工智能实验平台】 ↓↓↓
MathJax.Hub.Config({
"HTML-CSS": {
linebreaks: { automatic: true, width: "94%container" },
imageFont: null
},
tex2jax: {
preview: "none"
},
mml2jax: {
preview: 'none'
}
});
(function(){
var btnReadmore = (".MathJax").remove(); MathJax.Hub.Config({ "HTML-CSS": { linebreaks: { automatic: true, width: "94%container" }, imageFont: null }, tex2jax: { preview: "none" }, mml2jax: { preview: 'none' } }); (function(){ var btnReadmore = ("#btn-readmore"); if(btnReadmore.length>0){ var winH = (window).height();vararticleBox= ( w i n d o w ) . h e i g h t ( ) ; v a r a r t i c l e B o x = ("div.article_content"); var artH = articleBox.height(); if(artH > winH*2){ articleBox.css({ 'height':winH*2+'px', 'overflow':'hidden' }) btnReadmore.click(function(){ articleBox.removeAttr("style"); $(this).parent().remove(); }) }else{ btnReadmore.parent().remove(); } } })()
语料库,数据集 - CSDN博客
2018-5-27
InfoGAN修改训练人脸数据集celebA的过程记录
本文转自微信公众号 createamind InfoGAN修改训练人脸数据集celebA的过程记录 原创 2016-09-21 zdx3578 大脑模拟 内容目录:…
各领域公开数据集下载 | 资源 - CSDN博客
2018-6-6
各领域公开数据集下载 - CSDN博客
2018-7-7
常用图像数据集大全
1.搜狗实验室数据集: http://www.sogou.com/labs/dl/p.html 互联网图片库来自sogou图片搜索所索引的部分数据。其中收集了包括人物、动物、建筑、机械、风景、运动…
机器翻译WMT14数据集
2018-6-3
各领域公开数据集下载|资源 - CSDN博客
2018-6-9
常用数据集网址
常用的基本上UCI和w3c的。关于源代码,网上有很多公开源码的算法包,例如最为著名的Weka,MLC++等。Weka还在不断的更新其算法,下载地址: http://www.cs.waikato.ac…
数据集搜集整理 - CSDN博客
数据集中包含了多个主题数据集:广告和市场营销、自然语言数据、科学数据、图形和…TED Talk 的音频数据集,包含1495个录音和音频会议、159848条发音词典和部分WMT12…
2018-7-10
各领域公开数据集 - CSDN博客
2018-6-13
WMT14数据集
2018年04月09日 423.85MB 下载
免费数据集下载(持续更新中…) - CSDN博客
2018-5-27
各领域公开数据集下载 - CSDN博客
2018-6-7
机器翻译WMT14数据集
2018年04月09日 547.08MB 下载
各领域公开数据集下载 | 资源
本文整理了一些网上的免费数据集,分类下载地址如下,希望能节约大家找数据的时间。这篇文章涵盖以下10个领域的数据集下载资源: 金融 交通 商业 推荐系统 医疗健康 图像数据 视频数据 音频数据 自然语…
100款机器学习数据集
Kaggle 书籍推荐数据集(goodreads/上万图书/百万评价)【Kaggle】 https://www.kaggle.com/zygmunt/goodbooks-10k…
MNIST数据集解析
官网一探 MNIST数据集是一个手写体数据集,简单说就是一堆这样东西 MNIST的官网地址是 MNIST; 通过阅读官网我们可以知道,这个数据集由四部分组成,分别是 ;也就是一个训练图片集,一个训练…
机器学习13大规模数据集
大型数据集的学习(Learning With Large Datasets) 如果我们有一个低方差的模型, 增加数据集的规模可以帮助你获得更好的结果。 我们应该怎样应对一个有 100 万条记录的…
大数据数据集下载地址
大数据开发者最为难的就是没有有价值的数据来进行研究和实验,在国际上,一些欧美国家走在了前列,比如: 英国: 在其政府公开数据网站上( data.gov.uk)已经收录了10470个数据集…
手写体数字图片训练数据集
2016年04月15日 5.03MB 下载
数字手势数据集(Coursera - Deep Learning)
2017年10月04日 23.03MB 下载
介绍| 深度学习数据集标注工具
一、NLP标注工具BRAT BRAT是一个基于web的文本标注工具,主要用于对文本的结构化标注,用BRAT生成的标注结果能够把无结构化的原始文本结构化,供计算机处理。利用该工具可以方便的获得各项…
关于深度学习的数据集
ImageNet数据集的详细内容 ImageNet Large-Scale Visual Recognition Challenge(ILSVRC)是Pascal Visual Object C…
WN18数据集
2018年03月19日 1.49MB 下载
Arxiv 网络数据集社区检测结果
2018年04月13日 11KB 下载
Arxiv数据集
2018年04月13日 52.41MB 下载
AR Face Database 人脸识别数据集
Overview 126 people (over 4,000 color images). Different facial expressions, illumination co…
AR人脸数据集
2015年12月15日 39.63MB 下载
三万单词库(mssql数据库).rar
2008年11月20日 5.37MB 下载
17个最受欢迎的机器学习应用标准数据集
转自原文:http://tech.huanqiu.com/news/2016-12/9763359.html 来源:machinelearningmastery.com 作者:Jason …
AG及新闻主题分类数据集
AG是由ComeToMyHead超过一年的努力,从2000多不同的新闻来源搜集的超过1百万的新闻文章 ComeToMyHead是一个学术新闻搜索引擎,开始于2004年7月 http://www.di…
机器学习入门实战——朴素贝叶斯实战新闻组数据集
朴素贝叶斯实战新闻组数据集 关于朴素贝叶斯的相关理论知识可查看:朴素贝叶斯法 关于新闻组数据集 20newsgroups数据集是用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。一些新闻…
新闻个性化推荐系统(python)-(附源码 数据集)
1.背景 最近参加了一个评测,是关于新闻个性化推荐。说白了就是给你一个人的浏览记录,预测他下一次的浏览记录。花了一周时间写了一个集成系统,可以一键推荐新闻,但是准确率比较不理想,所以发到这…
路透社新闻数据集
2015年06月05日 7.77MB 下载
晨晨网络留言板
2003年04月23日 98KB 下载
搜狗新闻的自动文本摘要的数据集
2017年12月25日 13KB 下载
20_News_Groups_Dataset(20个新闻组数据集)
2012年05月13日 439KB 下载
国内外深度学习开放数据集下载集合(值得收藏,不断更新)
国内外深度学习开放数据集下载集合(值得收藏,不断更新) 一、Image processing data set 1、MNIST ,是最流行的深度学习数据集之一。这是一个手写数字数据集,包含一个有着…

没有更多推荐了,返回首页