1.2 数据获取【斯坦福21秋季:实用机器学习中文版】

数据获取

这一讲主要讲在没有现成的数据情况下,
如何去找数据集,并对三类数据集进行优缺点进行比较。
以及当找不到数据集时,如何获得数据集呢。
出处:https://www.bilibili.com/video/BV1Lf4y1n7LN?spm_id_from=333.999.0.0
参考:bilibili.com/read/cv13696681?from=note

一、获取数据集的途径

  • 首先寻找 现有数据集,现成的数据需要根据情况稍加处理,比如清洗、融合。
  • 如果没有现成的数据,那就要考虑 生成数据,制造一批合理的数据。
    这里的数据集(dataset)指的是已经被人清洗处理过的,能直接拿来用的。
    在这里插入图片描述

二、常见的数据集及网站

1.常见的数据集
维基百科中关于数据集的列表 https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research 中收录了一系列的数据集

  • MNIST: 手写数字数据集 http://yann.lecun.com/exdb/mnist/
  • imageNet : 大规模图片数据集 https://www.image-net.org/
  • AudioSet: 油管的声音片段数据 https://research.google.com/audioset/
  • Kinetic : 油管人类动作视频片段 https://deepmind.com/research/open-source/kinetics
  • KITTI : 无人驾驶数据集 http://www.cvlibs.net/datasets/kitti/
  • Amazon Review: 亚马逊用户评价数据 https://s3.amazonaws.com/amazon-reviews-pds/readme.html
  • SQuAD: 维基百科问答 https://rajpurkar.github.io/SQuAD-explorer/
  • LibriSpeech : 有声书数据集 https://www.tensorflow.org/datasets/catalog/librispeech

2.数据集的网站

  • Paperwithcode 网址 https://paperswithcode.com/
  • Kaggle 网址 https://www.kaggle.com/
  • google 网址 https://datasetsearch.research.google.com/
    1

三、数据集的分类比较
在这里插入图片描述
四、数据集融合
数据通常放在数据库不同的表内,可以通过mysql数据库中join命令来把多个表合并(join)相互关联,“融合”成一个表。
分开存储灵活,key可以帮助关联。
五、生成数据集
实在找不到数据集的时候,尝试生成数据。
例如:利用GAN来生成图像,有一个外文网站可以生成人脸。
利用数据增强 Data augmentation,以一张图片为蓝本生成一系列相似但又有差别的图片。
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zz_Lambda

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值