数据从哪里找?手把手教你构建数据集

导读:了解如何以及在何处查找要使用的数据集是很好的。在AI的广阔领域和它可以应用到的大量问题中,这两者都是非常主观的,但是存在一些通用的真理和建议。

作者:Mars Geldard, Jonathon Manning, Paris Buttfield-Addison, Tim Nugent

来源:大数据DT(ID:hzdashuju)

01 去哪里找

对于常见问题,有很多地方可以开始你的搜索。

就像谷歌学术(Google Scholar)用于研究论文那样,Google Dataset Search用于数据集。谷歌搜索的应用是无处不在的。这是了解特定主题的绝佳起点。谷歌还管理自己的通用公共数据存储库,称为Google Public Data,亚马逊也拥有自己的AWS数据注册中心。

Kaggle.com是致力于数据科学的在线社区。它具有由社区和组织贡献的大型数据集存储库,其中包含大量主题,任你选择。该站点还是以比赛或讨论方式学习数据分析细节的重要资源。

研究机构通常会发布科学数据供公众使用。如果你需要敏感的人类数据(如果可以确信已经适当匿名),这将特别有用。在澳大利亚,我们拥有诸如澳大利亚统计局、联邦科学与工业研究组织(CSIRO)之类的机构,甚至还有一个用于访问所有政府数据的在线门户,名为data.gov.au。

在世界其他地方,著名的机构包括NASA、NOAA NIST、CDC、WHO、UNICEF、CERN、Max Planck Institute、CNR、EPA等。

同样,许多国家或地区都有中央政府数据存储库,例如data.gov(美国)、open.canada.ca、data.govt.nz、data.europa.eu和data.gov.uk等。

一些具有非科学目的的公司,如果达到了自己能够进行内部研究或被要求进行内部研究的规模,甚至会发布数据存储库。世界银行国际货币基金组织(IMF)就是一个很好的例子,它们已经成为开放的金融和大众数据的主要来源。

在允许的情况下,从信誉良好的组织采购数据是确保准确性、覆盖范围以及适用的价值类型和格式的绝佳方法。

FiveThirtyEightBuzzFeed这样的新闻网站,提供了从公众调查中获得的数据以及关键文章收集的数据,从可能涉及公众福祉的重要社会和政治数据(网络审查、政府监控、枪支、医疗保健等),到体育等一切内容的分数或民意测验。

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要使用PyTorch实现MNIST数据集的手把手程,你可以按照以下步骤进行操作: 1. 导入所需的库和模块。这包括PyTorch库和其他必要的辅助功能库。 2. 获取并预处理数据集。你可以使用MNIST数据集,该数据集包含了0到9的手写数字图像。可以使用torchvision库中的函数来下载和加载MNIST数据集。然后,你需要对图像进行预处理,例如将其转换为张量、进行归一化等。 3. 构建模型。在PyTorch中,你可以使用nn.Module类来定义模型。你可以选择使用卷积神经网络(CNN)或全连接神经网络(FNN)来构建模型。根据模型的复杂性和准确性需求进行选择。 4. 定义损失函数和优化器。根据你的问题和模型的输出类型,选择适当的损失函数,例如交叉熵损失函数。然后选择一个优化器,例如随机梯度下降(SGD)或Adam优化器。 5. 编写训练循环。在训练循环中,你需要定义训练过程中的前向传播、计算损失、反向传播和参数更新操作。同时,你还可以添加其他功能,例如计算准确率、记录训练损失等。 6. 编写测试循环。在测试循环中,你需要定义测试过程中的前向传播和计算准确率操作。 7. 定义主要函数。在主要函数中,你需要调用前面定义的函数和模型,对数据进行训练和测试,并输出结果。 请注意以上步骤只是一个大致的框架,具体的实现细节和代码可以根据你的需求和实际情况进行调整和修改。在实际操作中,你可能还需要考虑其他因素,例如数据扩充、模型调参和模型保存等。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [PyTorch 手把手你实现 MNIST 数据集](https://blog.csdn.net/weixin_46274168/article/details/118271544)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [使用自然语言TensorFlow或PyTorch构建模型处理(NLP)技术构建一个简单的情感分析模型(附详细操作步骤)....](https://download.csdn.net/download/weixin_44609920/88234133)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值