Dataset

最新推荐文章于 2023-01-20 21:49:45 发布

米饭�

最新推荐文章于 2023-01-20 21:49:45 发布

阅读量396

点赞数

分类专栏： pytorch 文章标签：深度学习人工智能 python

本文链接：https://blog.csdn.net/weixin_43811423/article/details/128215616

版权

pytorch 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

Dataset

用于自定义数据集，继承Dataset类，实现init，getitem，len方法。
init完成初始化，保存getitem中可能用到的变量
getitem的输入是索引，用于得到一个图片和对应的label
len是整个数据集的长度

dataset目录形式1：
总文件->train->label->所有该类图片
在这里插入图片描述
init：得到数据集根目录（用于训练时是到train），读取该目录下所有目录名作为label，打开每个目录保存图片名。
getitem：按照索引取出对应的图片名，根据根目录和图片名拼出图片的完整路径（这里是相对路径），读取图片，返回图片和对应的标签
len：图片总数

from torch.utils.data import Dataset
import os
from PIL import Image


class MyData(Dataset):
    # 初始化中确定需要用到的变量是什么，这里用到的是dataset这个文件
    # 文件的格式是dataset->train->ants/bees
    # 后续（在getitem中）需要用到图片路径和标签，因此需要根目录，标签名字，以及图片数据集所在目录，和所有图片路径
    def __init__(self, root_dir, label_dir):
        self.root_dir = root_dir
        self.label_dir = label_dir
        self.path = os.path.join(self.root_dir, self.label_dir)
        self.img_path = os.listdir(self.path)

    # getitem决定通过索引获取数据的方式，返回的应该是图片和对应的标签
    # 根据这个数据集的结构，图片是根据图片目录获得的，标签是目录名称
    def __getitem__(self, idx):
        img_name = self.img_path[idx]
        img_item_path = os.path.join(self.root_dir, self.label_dir, img_name)
        img = Image.open(img_item_path)
        label = self.label_dir
        return img, label

    def __len__(self):
        return len(self.img_path)

root_dir = 'dataset/train'
ants_label_dir = 'ants'
bees_label_dir = 'bees'
ants_dataset = MyData(root_dir, ants_label_dir)
bees_dataset = MyData(root_dir, bees_label_dir)

# 数据集可以直接这样合并，在自己补充数据集的情况下更简便操作，效果是拼接，前面是蚂蚁后面是蜜蜂
train_dataset = ants_dataset + bees_dataset

dataset目录形式2：
在这里插入图片描述
图片和标签分别在两个目录中，标签被保存在与图片同名的文本文件中。

from torch.utils.data import Dataset
import os
from PIL import Image


class MyData(Dataset):
    def __init__(self, root_dir, img_dir, label_dir):
        self.root_dir = root_dir
        self.path = os.path.join(root_dir, img_dir)
        self.img_path = sorted(os.listdir(self.path))

        self.label_path = os.path.join(root_dir, label_dir)
        self.label_path_file = sorted(os.listdir(self.label_path))
        self.label = []
        for name in self.label_path_file:
            full_path = os.path.join(self.label_path, name)
            with open(full_path,'r') as f:
                self.label.append(f.read())

    def __getitem__(self, idx):
        img_name = self.img_path[idx]
        img_item_path = os.path.join(self.path, img_name)
        img = Image.open(img_item_path)

        return img, self.label[idx]

    def __len__(self):
        return len(self.img_path)


root_dir = 'dataset1/train'
img_dir = 'image'
label_dir = 'label'
train_dataset = MyData(root_dir, img_dir, label_dir)