开源生物识别数据:OpenBR | Home
Google Audioset:扩展了 632 个音频分类样本,并从 YouTube 视频中提取了 2,084,320 个人类标记的 10 秒声音片段。
地址:https://research.google.com/audioset/
Uber 2B trip data:首次展示 2 百万公里的出行数据。
地址:https://movement.uber.com/cities
Yelp Open Dataset:Yelp 数据集是用于 NLP 的 Yelp 业务、评论和用户数据的子集。
地址:Yelp Dataset
Core50:用于连续目标识别的新数据集和基准。
地址:CORe50
Kaggle 数据集:Find Open Datasets and Machine Learning Projects | Kaggle
Data Portal:- Data Portals
Open Data Monitor:OpenDataMonitor
Quandl Data Portal:Nasdaq Data Link
Mut1ny 头部/面部分割数据集:http://www.mut1ny.com/face-headsegmentation-dataset
Github 上的优秀公共数据集:Awesome Public Datasets on GitHub - KDnuggets
头部 CT 扫描数据集:491 次扫描的 CQ500 数据集。
地址:Qure.ai HeadCT Study
自然图像数据集
MNIST:手写数字图像。最常用的可用性检查。格式 25x25、居中、黑白手写数字。这是一项简单的任务——仅某部分适用于 MNIST,不意味着它有效。
地址:MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges
CIFAR10 / CIFAR100:32x32 彩色图像,10/100 类。虽然仍有趣却不再常用的可用性检查。
地址:CIFAR-10 and CIFAR-100 datasets
Caltech 101:101 类物体的图片。
地址:http://www.vision.caltech.edu/Image_Datasets/Caltech101/
Caltech 256:256 类物体的图片。
地址:http://www.vision.caltech.edu/Image_Datasets/Caltech256/
STL-10 数据集:用于开发无监督特征学习、深度学习、自学习算法的图像识别数据集。像修改过的 CIFAR-10。
地址:STL-10 dataset
The Street View House Numbers (SVHN):Google 街景中的门牌号码。可以把它想象成复现的户外 MNIST。
地址:The Street View House Numbers (SVHN) Dataset
NORB:玩具摆件在各种照明和姿势下的双目图像。
地址:NORB Object Recognition Dataset, Fu Jie Huang, Yann LeCun, New York University
Pascal VOC:通用图像分割/分类——对于构建真实世界图像注释不是非常有用,但对基线很有用。
地址:http://pascallin.ecs.soton.ac.uk/challenges/VOC/
Labelme:带注释图像的大型数据集。
地址:LabelMe. The Open annotation tool
ImageNet:新算法的客观图像数据集(de-facto image dataset)。许多图像 API 公司都有来自其 REST 接口的标签,这些标签近 1000 类;WordNet; ImageNet 的层次结构。
地址:ImageNet
LSUN:具有很多辅助任务的场景理解(房间布局估计,显著性预测(saliency prediction)等),有关联竞赛。(associated competition)。
地址:http://lsun.cs.princeton.edu/2016/
MS COCO:通用图像理解/说明,有关联竞赛。
地址:http://mscoco.org/
COIL 20:不同物体在 360 度旋转中以每个角度成像。
地址: