Pytorch制作自己的数据集

最新推荐文章于 2024-04-02 18:51:05 发布

__TAT__

最新推荐文章于 2024-04-02 18:51:05 发布

阅读量1.8k

点赞数 1

分类专栏： Deep Learning 文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/weixin_45885074/article/details/113837974

版权

Deep Learning 专栏收录该内容

10 篇文章 1 订阅

订阅专栏

Part one 需要的模块

1、我们一般是将提取数据集的函数单独作为一个类，这个类继承datasets。

from troch.utils.data.dataset import Dataset

2、深度学习中打开图像一般用的是Pillow模块而不是opencv

from PIL import Image   #这里的PIL就是Pillow模块

3、我们打开图像之后还需要将图像进行再加工，例如改变尺寸、调整亮度、以及将所有数据打包起来，这时候就需要用到torchvision中的功能包了。

import torchvision.transforms as transforms

Part two 制作数据集

这个地方是最考研python基础的，很多时候我们拿到的图片参差不齐，他们的标签也各有风格，但是无论我们作何处理，我们最终的目的只有一个。
Frist:一个具有照片存放位置的列表（包括对应照片名字）
在这里插入图片描述
Second:一个存放标签的列表（记得与照片的顺序对应）

Thrid:计算机是无法识别"cat" and “dog"这样的单词的，那么我们需要将"cat” and "dog"转化为数字1和0。然后也是将1和0制作成一个列表。

if name == "cat":
    label.append(0)
else:
    label.append(1)

备注：我一般是将图片路径列表和标签列表放进txt文件夹中，然后用到的时候再进行读取，制作成python列表。

Part three制作图片提取、处理的函数（其实是一个类）

class my_data(Dataset):
    def __init__(self, img_path, label, transform=None):
        self.img_path = img_path     #拿取图片路径列表
        self.label = label			#拿取标签列表
        if transform is not None:   
            self.transform = transform
        else:
            self.transform = None

    def __getitem__(self, index):   #必须加载的方法
        img_after = Image.open(self.img_path[index]).convert('RGB') 
        label = self.label[index]
        if self.transform is not None:  #对图片进行二次处理
            img_after = self.transform(img_after)

        return img_after, label   #返回处理完的图片数据和标签

    def __len__(self):     #必须加载的方法,实际上好像没什么用
        return len(self.img_path)

Part four在主函数上声明图片转化的形式和图片的批次

    train_loader = torch.utils.data.DataLoader(
        dataset=my_data(img_path, label,   #注意my_data是我上面自己声明的一个类
                        transforms.Compose([transforms.Resize((224, 224)), #将图片尺寸统一改为224*224（根据你的网络模型来设置）
                                            transforms.ToTensor(),  #将数据转化为Tensor
                                            transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])]  #官方给出的标准化参数，可以自行进一步了解
                                          )
                        ),
        batch_size=5,  #一次提供训练的图片个数
        shuffle=False,  #是否打乱顺序，在自己做的数据集中是没必要的，当然打不打乱都无所谓
                                              )

Part five 最终进行训练

for i, (input, labels) in enumerate(train_loader):
	.....
	#i代表次数

__TAT__

关注

1
点赞
踩
24

收藏

觉得还不错? 一键收藏
打赏
1
评论
Pytorch制作自己的数据集

Part one 需要的模块1、我们一般是将提取数据集的函数单独作为一个类，这个类继承datasets。from troch.utils.data.dataset import Dataset 2、深度学习中打开图像一般用的是Pillow模块而不是opencvfrom PIL import Image #这里的PIL就是Pillow模块3、我们打开图像之后还需要将图像进行再加工，例如改变尺寸、调整亮度、以及将所有数据打包起来，这时候就需要用到torchvision中的功能包了。impor
复制链接

扫一扫