PyTorch - 13 - 深度学习中的数据(重要)-人工智能的时尚MNIST
Why Study A Dataset?
让我们开始思考以下问题:为什么我们应该花时间研究数据集。数据是深度学习的主要成分,尽管作为神经网络程序员的任务是让我们的神经网络从数据中学习,但我们仍然有责任了解我们实际用于训练的数据的性质和历史。
计算机程序通常由两个主要组件组成,即代码
和数据
。在传统编程中,程序员的工作是直接编写软件或代码,而在深度学习和神经网络中,可以说软件本身就是网络本身,尤其是网络在训练过程中自动产生的权重。
通过培训来监督和指导学习过程是程序员的工作。我们可以将其视为编写软件或代码的间接方式。通过使用数据和深度学习,神经网络程序员可以生成能够执行计算的软件,而无需编写代码来明确执行这些计算。
因此,数据在开发软件中的作用正在发生变化,我们很可能会看到软件开发人员的作用也在发生变化。
以数据为中心的注意事项:
- 谁创建了数据集?
- 数据集是如何创建的?
- 使用了哪些转换?
- 数据集有什么意图?
- 可能的意外后果?
- 数据集是否有偏见?
- 数据集是否存在道德问题?
在实践中,获取和访问数据通常是深度学习中最困难的部分,因此在我们浏览此特定数据集时,请记住这一点。注意我们在此处看到的一般概念和想法。
What Is The MNIST Dataset?
MNIST数据集(修改后的美国国家标准技术研究院数据库)是著名的手写数字数据集,通常用于训练用于机器学习的图像处理系统。 NIST代表国家标准技术研究所。
MNIST中的M代表已修改,因为这是因为原始NIST数字数据集已被修改为MNIST。
MNIST因使用数据集的频率而闻名。常见的原因有两个&#