pytorch数据操作---dataset，dataloader，transform

最新推荐文章于 2024-07-27 15:34:09 发布

xys430381_1

最新推荐文章于 2024-07-27 15:34:09 发布

阅读量1w

点赞数 5

分类专栏： pytorch 文章标签： pytorch dataset dataloader transform

本文链接：https://blog.csdn.net/xys430381_1/article/details/102886605

版权

pytorch 专栏收录该内容

16 篇文章 6 订阅

订阅专栏

基本概述

pytorch输入数据PipeLine一般遵循一个“三步走”的策略，一般pytorch 的数据加载到模型的操作顺序是这样的：
① 创建一个 Dataset 对象。必须实现__len__()、getitem()这两个方法，这里面会用到transform对数据集进行扩充。
② 创建一个 DataLoader 对象。它是对DataSet对象进行迭代的，一般不需要事先里面的其他方法了。
③ 循环遍历这个 DataLoader 对象。将img, label加载到模型中进行训练

注意这三个类均在torch.utils.data 中

pytorch数据预处理三剑客之系列文章

（第一篇）pytorch数据预处理三剑客之——Dataset，DataLoader
这一篇章已经很明确的说明了如何使用DataSet类和DataLoader类，
（第二篇）pytorch数据预处理三剑客之——DataLoader的重要参数collate_fn,sampler
第二篇文章中详细介绍了DataLoader类中的几个重要的常用的参数，如sampler参数、collate_fn参数
（第三篇）pytorch数据预处理三剑客之——Transform
在数据与处理的过程中，还会遇到数据增强、数据裁剪等各种操作，当然这些操作我们可以预先自己来实现，但是pytorch提供了强大的处理工具来对图像进行预处理，这也是本文的重点，详细介绍 torchvision中的transform操作。

多种组合变换有一定的先后顺序，处理PILImage的变换方法（大多数方法）都需要放在ToTensor方法之前，
而处理tensor的方法（比如Normalize方法）就要放在ToTensor方法之后。

接下来介绍transforms中的函数：（从比较重要的开始）
ToTensor：convert a PIL image to tensor (HWC) in range [0,255]，
and then to a torch.Tensor(CHW) in the range [0.0,1.0]

Normalize：Normalized an tensor image with mean and standard deviation。
即：用给定的均值和标准差分别对每个通道的数据进行正则化。
具体来说，给定均值(M1,…,Mn)，给定标准差(S1,…,Sn)，其中n是通道数（一般是3）

自制transform----
如果自制transform类，则该类的_call函数的输入输出都是PIL格式的图像。
PIL是HWC顺序，并且三个通道为RGB（不是cv2的BGR）。
特别注意，
如果过程中要采用cv2处理图像，只需将PIL转换为np.array形式：np.array(PIL)，无需将RGB转换为BGR。- 如果一定要转换颜色通道，也务必在cv2操作完之后，将BGR转回RGB。- 否则，会导致通道顺序与预训练网络见过的通道顺序不一致，性能降低。
实际上，最终tranform返回的，可以显式转换：
img = Image.fromarray(img.astype(‘uint8’)).convert(‘RGB’)
也可以只需是HWC，RGB，取值范围在0-55之间的np.array即可。框架会自动转换。

pytorch数据预处理：如何自定义transforms方法

PyTorch 学习笔记（一）：让PyTorch读取你的数据集
主要内容：

重点看 getitem函数，getitem接收一个index，然后返回图片数据和标签，这个index通常指的是一个list的index，
这个list的每个元素就包含了图片数据的路径和标签信息。

然而，如何制作这个list呢，通常的方法是将图片的路径和标签信息存储在一个txt中，然后从该txt中读取。
那么读取自己数据的基本流程就是：
- 制作存储了图片的路径和标签信息的txt
- 将这些信息转化为list，该list每一个元素对应一个样本
- 通过getitem函数，读取数据和标签，并返回数据和标签

pytorch中transform函数详解

xys430381_1

关注

5
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
pytorch数据操作---dataset，dataloader，transform

基本概述pytorch输入数据PipeLine一般遵循一个“三步走”的策略，一般pytorch 的数据加载到模型的操作顺序是这样的：① 创建一个 Dataset 对象。必须实现__len__()、getitem()这两个方法，这里面会用到transform对数据集进行扩充。② 创建一个 DataLoader 对象。它是对DataSet对象进行迭代的，一般不需要事先里面的其他方法了。③ 循环...
复制链接

扫一扫

专栏目录