怎么寻找数据集

1、paperswithcodes datasets:一个网站,论文的代码实现以及在各个数据集上面的表现,也有一些论文常见的数据集

2、Kaggle datasets:一个竞赛的网站,有常见数据集,也有用户上穿的数据集,用户上传的数据集质量参差不齐,需要自己判断

3、Google dataset search:一个数据集的搜索引擎,可以在上面搜索需要的数据集,返回结果是各种网站相应的数据集

4、也有各种各样集成的工具数据集,比如tensorflow、huggingface

5、从各种竞赛或者公司中发布的数据集,一般来说质量较高,而且比较新

6、Open data on aws:100多个很大的原始数据集,数据量极大,而且没有经过任何处理,详细可以自己搜索一下

大概可以分为以下三类:

学术数据集:优点是比较干净,难度适中,因为很多论文都已经验证过了,你也知道其他人对这个数据集的结果,方便对比;缺点是可选择性低,就那么多数据集,通常是常见的机器学习的数据集,不是很适合来做产品

竞赛的数据集:优点是更接近应用的数据集;缺点是仍然是经过处理的数据集,而且一般都是比较热门领域的数据集

原始数据集:优点是比较灵活,基本上你任何的数据都能找到;缺点是你需要很多的精力去用于数据集的预处理

  • 5
    点赞
  • 82
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值