PyTorch - 15 - PyTorch数据集和数据加载器 - 深度学习和AI的训练集探索

最新推荐文章于 2022-11-15 22:32:38 发布

许喜远

最新推荐文章于 2022-11-15 22:32:38 发布

阅读量1.1k

点赞数 1

分类专栏： PyTorch 文章标签：深度学习 pytorch 神经网络机器学习数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48367136/article/details/112494127

版权

本文介绍了如何在PyTorch中使用数据集和数据加载器处理深度学习项目。通过示例展示了如何探索Fashion-MNIST数据集，包括检查样本数量、类平衡性以及访问和显示数据。同时，详细解释了如何处理批量数据并绘制图像，为后续构建和训练模型打下基础。

摘要由CSDN通过智能技术生成

PyTorch - 15 - PyTorch数据集和数据加载器 - 深度学习和AI的训练集探索

PyTorch Datasets And DataLoaders For Deep Learning
PyTorch Dataset: Working With The Training Set
Exploring The Data
Class Imbalance: Balanced And Unbalanced Datasets
Accessing Data In The Training Set
PyTorch DataLoader: Working With Batches Of Data
How To Plot Images Using PyTorch DataLoader
Building The Model Is Next

PyTorch Datasets And DataLoaders For Deep Learning

从高角度来看，我们仍处于深度学习项目的准备数据阶段。

准备数据
建立模型
训练模型
分析模型的结果

在这篇文章中，我们将看到如何使用在上一篇文章中创建的数据集和数据加载器对象。请记住，在上一篇文章中，我们有两个PyTorch对象，一个数据集和一个DataLoader。

1.train_set
2.train_loader

现在，我们准备看看如何使用这些对象，让我们开始吧。

PyTorch Dataset: Working With The Training Set

让我们先来看一些我们可以执行的操作，以更好地了解我们的数据。

Exploring The Data

要查看训练集中有多少张图片，我们可以使用Pythonlen（）函数检查数据集的长度：

> len(train_set)
60000

根据我们在Fashion-MNIST数据集上的帖子中学到的知识，这个60000的数字是有意义的。假设我们要查看每个图像的标签。可以这样完成：

> train_set.targets
tensor([9, 0, 0, ..., 3, 0, 5])

在这里插入图片描述

第一个图像是9，接下来的两个是零。请记住，过去的帖子中，这些值编码实际的类名称或标签。例如，9是踝靴，而0是T恤。
如果要查看数据集中每个标签有多少个，可以使用PyTorch bincount（）函数，如下所示：

> train_set.targets.bincount()
tensor([6000, 6000, 6000, 6000, 6000, 6000, 6000, 6000, 6000, 6000])

Class Imbalance: Balanced And Unbalanced Datasets

这向我们显示，Fashion-MNIST数据集在每个类别中的样本数量方面是统一的。这意味着我们每个班级都有6000个样本。结果，该数据集被认为是平衡的。如果类的样本数量不同，我们将其称为不平衡数据集。

类不平衡是一个常见问题，但是在我们的案例中，我们刚刚看到Fashion-MNIST数据集确实是平衡的，因此我们不必为项目担心。

要了解有关减轻深度学习中不平衡数据集的方法的更多信息，请参阅本文：卷积神经网络中类不平衡问题的系统研究。

Accessing Data In The Training Set

要访问训练集中的单个元素，我们首先将train_set对象传递给Python的iter（）内置函数，该函数会返回一个代表数据流的对象。

对于数据流，我们可以使用Python内置的next（）函数来获取数据流中的下一个数据元素。我们希望由此得到一个样本，因此我们将相应地命名结果：

> sample = next(iter(train_set))
> len(sample)
2

将样本传递给len（）函数后，我们可以看到样本包含两个项目，这是因为数据集包含图像标签对。我们从训练集中检索的每个样本都包含图像数据作为张量和相应的标签作为张量。

由于样本是序列类型，因此我们可以使用序列拆包来分配图像和标签。现在，我们将检查图像和标签的类型，看看它们都是Torch.Tensor对象：

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。