导读:了解如何以及在何处查找要使用的数据集是很好的。在AI的广阔领域和它可以应用到的大量问题中,这两者都是非常主观的,但是存在一些通用的真理和建议。
作者:Mars Geldard, Jonathon Manning, Paris Buttfield-Addison, Tim Nugent
来源:大数据DT(ID:hzdashuju)
01 去哪里找
对于常见问题,有很多地方可以开始你的搜索。
就像谷歌学术(Google Scholar)用于研究论文那样,Google Dataset Search用于数据集。谷歌搜索的应用是无处不在的。这是了解特定主题的绝佳起点。谷歌还管理自己的通用公共数据存储库,称为Google Public Data,亚马逊也拥有自己的AWS数据注册中心。
Kaggle.com是致力于数据科学的在线社区。它具有由社区和组织贡献的大型数据集存储库,其中包含大量主题,任你选择。该站点还是以比赛或讨论方式学习数据分析细节的重要资源。
研究机构通常会发布科学数据供公众使用。如果你需要敏感的人类数据(如果可以确信已经适当匿名),这将特别有用。在澳大利亚,我们拥有诸如澳大利亚统计局、联邦科学与工业研究组织(CSIRO)之类的机构,甚至还有一个用于访问所有政府数据的在线门户,名为data.gov.au。
在世界其他地方,著名的机构包括NASA、NOAA NIST、CDC、WHO、UNICEF、CERN、Max Planck Institute、CNR、EPA等。
同样,许多国家或地区都有中央政府数据存储库,例如data.gov(美国)、open.canada.ca、data.govt.nz、data.europa.eu和data.gov.uk等。
一些具有非科学目的的公司,如果达到了自己能够进行内部研究或被要求进行内部研究的规模,甚至会发布数据存储库。世界银行和国际货币基金组织(IMF)就是一个很好的例子,它们已经成为开放的金融和大众数据的主要来源。
在允许的情况下,从信誉良好的组织采购数据是确保准确性、覆盖范围以及适用的价值类型和格式的绝佳方法。
FiveThirtyEight和BuzzFeed这样的新闻网站,提供了从公众调查中获得的数据以及关键文章收集的数据,从可能涉及公众福祉的重要社会和政治数据(网络审查、政府监控、枪支、医疗保健等),到体育等一切内容的分数或民意测验。