数据从哪里找？手把手教你构建数据集

最新推荐文章于 2024-05-09 07:00:00 发布

大数据v

最新推荐文章于 2024-05-09 07:00:00 发布

阅读量2k

点赞数 1

文章标签：人工智能大数据数据挖掘编程语言 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zw0Pi8G5C1x/article/details/115314965

版权

导读：了解如何以及在何处查找要使用的数据集是很好的。在AI的广阔领域和它可以应用到的大量问题中，这两者都是非常主观的，但是存在一些通用的真理和建议。

作者：Mars Geldard, Jonathon Manning, Paris Buttfield-Addison, Tim Nugent

来源：大数据DT（ID：hzdashuju）

01 去哪里找

对于常见问题，有很多地方可以开始你的搜索。

就像谷歌学术（Google Scholar）用于研究论文那样，Google Dataset Search用于数据集。谷歌搜索的应用是无处不在的。这是了解特定主题的绝佳起点。谷歌还管理自己的通用公共数据存储库，称为Google Public Data，亚马逊也拥有自己的AWS数据注册中心。

Kaggle.com是致力于数据科学的在线社区。它具有由社区和组织贡献的大型数据集存储库，其中包含大量主题，任你选择。该站点还是以比赛或讨论方式学习数据分析细节的重要资源。

研究机构通常会发布科学数据供公众使用。如果你需要敏感的人类数据（如果可以确信已经适当匿名），这将特别有用。在澳大利亚，我们拥有诸如澳大利亚统计局、联邦科学与工业研究组织（CSIRO）之类的机构，甚至还有一个用于访问所有政府数据的在线门户，名为data.gov.au。

在世界其他地方，著名的机构包括NASA、NOAA NIST、CDC、WHO、UNICEF、CERN、Max Planck Institute、CNR、EPA等。

同样，许多国家或地区都有中央政府数据存储库，例如data.gov（美国）、open.canada.ca、data.govt.nz、data.europa.eu和data.gov.uk等。

一些具有非科学目的的公司，如果达到了自己能够进行内部研究或被要求进行内部研究的规模，甚至会发布数据存储库。世界银行和国际货币基金组织（IMF）就是一个很好的例子，它们已经成为开放的金融和大众数据的主要来源。

在允许的情况下，从信誉良好的组织采购数据是确保准确性、覆盖范围以及适用的价值类型和格式的绝佳方法。

FiveThirtyEight和BuzzFeed这样的新闻网站，提供了从公众调查中获得的数据以及关键文章收集的数据，从可能涉及公众福祉的重要社会和政治数据（网络审查、政府监控、枪支、医疗保健等），到体育等一切内容的分数或民意测验。

最低0.47元/天解锁文章

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
数据从哪里找？手把手教你构建数据集

导读：了解如何以及在何处查找要使用的数据集是很好的。在AI的广阔领域和它可以应用到的大量问题中，这两者都是非常主观的，但是存在一些通用的真理和建议。作者：Mars Geldard, Jon...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。