数据获取
这一讲主要讲在没有现成的数据情况下,
如何去找数据集,并对三类数据集进行优缺点进行比较。
以及当找不到数据集时,如何获得数据集呢。
出处:https://www.bilibili.com/video/BV1Lf4y1n7LN?spm_id_from=333.999.0.0
参考:bilibili.com/read/cv13696681?from=note
一、获取数据集的途径
- 首先寻找 现有数据集,现成的数据需要根据情况稍加处理,比如清洗、融合。
- 如果没有现成的数据,那就要考虑 生成数据,制造一批合理的数据。
这里的数据集(dataset)指的是已经被人清洗处理过的,能直接拿来用的。
二、常见的数据集及网站
1.常见的数据集
维基百科中关于数据集的列表 https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research 中收录了一系列的数据集
- MNIST: 手写数字数据集 http://yann.lecun.com/exdb/mnist/
- imageNet : 大规模图片数据集 https://www.image-net.org/
- AudioSet: 油管的声音片段数据 https://research.google.com/audioset/
- Kinetic : 油管人类动作视频片段 https://deepmind.com/research/open-source/kinetics
- KITTI : 无人驾驶数据集 http://www.cvlibs.net/datasets/kitti/
- Amazon Review: 亚马逊用户评价数据 https://s3.amazonaws.com/amazon-reviews-pds/readme.html
- SQuAD: 维基百科问答 https://rajpurkar.github.io/SQuAD-explorer/
- LibriSpeech : 有声书数据集 https://www.tensorflow.org/datasets/catalog/librispeech
2.数据集的网站
- Paperwithcode 网址 https://paperswithcode.com/
- Kaggle 网址 https://www.kaggle.com/
- google 网址 https://datasetsearch.research.google.com/
三、数据集的分类比较
四、数据集融合
数据通常放在数据库不同的表内,可以通过mysql数据库中join命令来把多个表合并(join)相互关联,“融合”成一个表。
分开存储灵活,key可以帮助关联。
五、生成数据集
实在找不到数据集的时候,尝试生成数据。
例如:利用GAN来生成图像,有一个外文网站可以生成人脸。
利用数据增强 Data augmentation,以一张图片为蓝本生成一系列相似但又有差别的图片。