Dataset

Dataset

用于自定义数据集,继承Dataset类,实现init,getitem,len方法。
init完成初始化,保存getitem中可能用到的变量
getitem的输入是索引,用于得到一个图片和对应的label
len是整个数据集的长度

dataset目录形式1:
总文件->train->label->所有该类图片
在这里插入图片描述
init:得到数据集根目录(用于训练时是到train),读取该目录下所有目录名作为label,打开每个目录保存图片名。
getitem:按照索引取出对应的图片名,根据根目录和图片名拼出图片的完整路径(这里是相对路径),读取图片,返回图片和对应的标签
len:图片总数

from torch.utils.data import Dataset
import os
from PIL import Image


class MyData(Dataset):
    # 初始化中确定需要用到的变量是什么,这里用到的是dataset这个文件
    # 文件的格式是dataset->train->ants/bees
    # 后续(在getitem中)需要用到图片路径和标签,因此需要根目录,标签名字,以及图片数据集所在目录,和所有图片路径
    def __init__(self, root_dir, label_dir):
        self.root_dir = root_dir
        self.label_dir = label_dir
        self.path = os.path.join(self.root_dir, self.label_dir)
        self.img_path = os.listdir(self.path)

    # getitem决定通过索引获取数据的方式,返回的应该是图片和对应的标签
    # 根据这个数据集的结构,图片是根据图片目录获得的,标签是目录名称
    def __getitem__(self, idx):
        img_name = self.img_path[idx]
        img_item_path = os.path.join(self.root_dir, self.label_dir, img_name)
        img = Image.open(img_item_path)
        label = self.label_dir
        return img, label

    def __len__(self):
        return len(self.img_path)

root_dir = 'dataset/train'
ants_label_dir = 'ants'
bees_label_dir = 'bees'
ants_dataset = MyData(root_dir, ants_label_dir)
bees_dataset = MyData(root_dir, bees_label_dir)

# 数据集可以直接这样合并,在自己补充数据集的情况下更简便操作,效果是拼接,前面是蚂蚁后面是蜜蜂
train_dataset = ants_dataset + bees_dataset

dataset目录形式2:
在这里插入图片描述
图片和标签分别在两个目录中,标签被保存在与图片同名的文本文件中。

from torch.utils.data import Dataset
import os
from PIL import Image


class MyData(Dataset):
    def __init__(self, root_dir, img_dir, label_dir):
        self.root_dir = root_dir
        self.path = os.path.join(root_dir, img_dir)
        self.img_path = sorted(os.listdir(self.path))

        self.label_path = os.path.join(root_dir, label_dir)
        self.label_path_file = sorted(os.listdir(self.label_path))
        self.label = []
        for name in self.label_path_file:
            full_path = os.path.join(self.label_path, name)
            with open(full_path,'r') as f:
                self.label.append(f.read())

    def __getitem__(self, idx):
        img_name = self.img_path[idx]
        img_item_path = os.path.join(self.path, img_name)
        img = Image.open(img_item_path)

        return img, self.label[idx]

    def __len__(self):
        return len(self.img_path)


root_dir = 'dataset1/train'
img_dir = 'image'
label_dir = 'label'
train_dataset = MyData(root_dir, img_dir, label_dir)

在书写过程中过程中
此处使用的是pycharm
在下方栏的python console中可以将语句依次输入查看中间变量和结果,有助于调试。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值