数据从哪里找?手把手教你构建数据集

导读:了解如何以及在何处查找要使用的数据集是很好的。在AI的广阔领域和它可以应用到的大量问题中,这两者都是非常主观的,但是存在一些通用的真理和建议。

作者:Mars Geldard, Jonathon Manning, Paris Buttfield-Addison, Tim Nugent

来源:大数据DT(ID:hzdashuju)

01 去哪里找

对于常见问题,有很多地方可以开始你的搜索。

就像谷歌学术(Google Scholar)用于研究论文那样,Google Dataset Search用于数据集。谷歌搜索的应用是无处不在的。这是了解特定主题的绝佳起点。谷歌还管理自己的通用公共数据存储库,称为Google Public Data,亚马逊也拥有自己的AWS数据注册中心。

Kaggle.com是致力于数据科学的在线社区。它具有由社区和组织贡献的大型数据集存储库,其中包含大量主题,任你选择。该站点还是以比赛或讨论方式学习数据分析细节的重要资源。

研究机构通常会发布科学数据供公众使用。如果你需要敏感的人类数据(如果可以确信已经适当匿名),这将特别有用。在澳大利亚,我们拥有诸如澳大利亚统计局、联邦科学与工业研究组织(CSIRO)之类的机构,甚至还有一个用于访问所有政府数据的在线门户,名为data.gov.au。

在世界其他地方,著名的机构包括NASA、NOAA NIST、CDC、WHO、UNICEF、CERN、Max Planck Institute、CNR、EPA等。

同样,许多国家或地区都有中央政府数据存储库,例如data.gov(美国)、open.canada.ca、data.govt.nz、data.europa.eu和data.gov.uk等。

一些具有非科学目的的公司,如果达到了自己能够进行内部研究或被要求进行内部研究的规模,甚至会发布数据存储库。世界银行国际货币基金组织(IMF)就是一个很好的例子,它们已经成为开放的金融和大众数据的主要来源。

在允许的情况下,从信誉良好的组织采购数据是确保准确性、覆盖范围以及适用的价值类型和格式的绝佳方法。

FiveThirtyEightBuzzFeed这样的新闻网站,提供了从公众调查中获得的数据以及关键文章收集的数据,从可能涉及公众福祉的重要社会和政治数据(网络审查、政府监控、枪支、医疗保健等),到体育等一切内容的分数或民意测验。

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值