【PyTorch深度学习实践】07_Dataset和Dataloader

最新推荐文章于 2024-04-24 05:01:16 发布

青山的青衫

最新推荐文章于 2024-04-24 05:01:16 发布

阅读量640

点赞数 2

分类专栏： # Pytorch 文章标签：深度学习 pytorch python

本文链接：https://blog.csdn.net/weixin_56956615/article/details/128674090

版权

Pytorch 专栏收录该内容

9 篇文章 2 订阅

订阅专栏

文章目录

1. Epoch，Iteration，Batch-Size

参考博客

在这里插入图片描述

2. Dataset 和 Dataloader

参考博客

功能概览

在这里插入图片描述

2.1 Dataset

torch.utils.data.Dataset是一个抽象类，不可以实例化，但是可以通过构建这个抽象类的子类来创建数据集。

重要方法（且必须改写）：

getitem__():传入指定的索引index后，该方法能够根据索引返回对应的单个样本及其对应的标签（以元组形式）
__len__():返回整个数据集的大小
此外，因为 Dataset 类中提供了 __add__() 方法，所以继承之后我们的数据集也会拥有此方法，从而合并数据集只需使用 + 运算即可。

代码接口

class MyDataset(Dataset):
    def __init__(self):   
        # 初始化数据集的存储路径
        # 载入数据集（转化为tensor格式）
        # ...
    
    def __getitem__(self, index):
        # 返回单个样本及其标签，后续batch由什么组成也是取决于这个是怎么设置的
        pass
    
    def __len__(self):
        # 返回整个数据集的大小
        pass

读取数据时有两个选择，一是把所有数据都加载进来（数据量较小时），另一个是定义一个列表，存放文件名，再用文件名去读文件内容，第二种留待以后实现（数据量较大时）

举例可以看参考博客。

2.2 Dataloader

绝大多数时候需要以 batch 的形式访问数据集。Dataloader 这个接口提供了这样的功能，它能够基于我们自定义的数据集将其转换成一个可迭代对象以便我们批量访问。

重要参数

在这里插入图片描述
代码示例：

train_loader = DataLoader(dataset= dataset, batch_size=32, shuffle=True, num_workers=2,drop_last=False)

这段代码可以创建一个可迭代对象

2.2.1 例子

例：数据集内容如下：

dataloader设置：

dataloader = DataLoader(data, batch_size=3, shuffle=False, drop_last=False)

将创建的可迭代对象列表化：

list(dataloader)
# [[tensor([[-14., -15.],
#           [ -1., -15.],
#           [-11., -14.]], dtype=torch.float64),
#   tensor([1., 1., 1.], dtype=torch.float64)],
#  [tensor([[ 0., -2.],
#           [-4.,  2.],
#           [ 7., -2.]], dtype=torch.float64),
#   tensor([1., 0., 1.], dtype=torch.float64)],
#  [tensor([[ -7., -17.],
#           [  9.,  12.],
#           [  5., -14.]], dtype=torch.float64),
#   tensor([1., 0., 0.], dtype=torch.float64)],
#  [tensor([[-13.,  13.]], dtype=torch.float64),
#   tensor([1.], dtype=torch.float64)]]

可以看出，列表化后，每一个 batch 均以列表的形式存储。这说明我们可以通过 for 循环来遍历所有的 batch，具体做法如下：

for inputs, labels in dataloader:
    print(inputs, labels)
# tensor([[-14., -15.],
#         [ -1., -15.],
#         [-11., -14.]], dtype=torch.float64) tensor([1., 1., 1.], dtype=torch.float64)
# tensor([[ 0., -2.],
#         [-4.,  2.],
#         [ 7., -2.]], dtype=torch.float64) tensor([1., 0., 1.], dtype=torch.float64)
# tensor([[ -7., -17.],
#         [  9.,  12.],
#         [  5., -14.]], dtype=torch.float64) tensor([1., 0., 0.], dtype=torch.float64)
# tensor([[-13.,  13.]], dtype=torch.float64) tensor([1.], dtype=torch.float64)

2.2.2 enumerate函数

参考博客1
参考博客2

用于记录每个batch的索引（即 iteration）
在这里插入图片描述 实例：（这里为了方便展示将 batch_size 设为了1）：

dataloader = DataLoader(data, batch_size=1, shuffle=True, drop_last=True)
for batch_idx, (inputs, labels) in enumerate(dataloader):
    print(batch_idx, end=' ')
    print(inputs, labels)
# 0 tensor([[-4.,  2.]], dtype=torch.float64) tensor([0.], dtype=torch.float64)
# 1 tensor([[ -1., -15.]], dtype=torch.float64) tensor([1.], dtype=torch.float64)
# 2 tensor([[ 0., -2.]], dtype=torch.float64) tensor([1.], dtype=torch.float64)
# 3 tensor([[ 7., -2.]], dtype=torch.float64) tensor([1.], dtype=torch.float64)
# 4 tensor([[ 9., 12.]], dtype=torch.float64) tensor([0.], dtype=torch.float64)
# 5 tensor([[  5., -14.]], dtype=torch.float64) tensor([0.], dtype=torch.float64)
# 6 tensor([[-11., -14.]], dtype=torch.float64) tensor([1.], dtype=torch.float64)
# 7 tensor([[-14., -15.]], dtype=torch.float64) tensor([1.], dtype=torch.float64)
# 8 tensor([[ -7., -17.]], dtype=torch.float64) tensor([1.], dtype=torch.float64)
# 9 tensor([[-13.,  13.]], dtype=torch.float64) tensor([1.], dtype=torch.float64)

3. 完整代码

import torch
import numpy as np
from torch.utils.data import Dataset, DataLoader

# 1. Dataset和Dataloader 准备数据集
class DiabetesDataset(Dataset):
    def __init__(self, filepath):   # 也可以删去filepath，把真正路径放到下面第一行代码的第一个参数
        xy = np.loadtxt(filepath, delimiter=',', dtype=np.float32)
        self.len = xy.shape[0]      # 例如数据集是N行（N个样本），8+1列（8个特征，1个输出），shape就是一个元组，为（N，9），shape[0]就是N
        self.x_data = torch.from_numpy(xy[:, :-1])
        self.y_data = torch.from_numpy(xy[:, [-1]])

    def __getitem__(self, index):
       return self.x_data[index], self.y_data[index]

    def __len__(self):
        # 也可以 return self.len(x_data)
        return self.len


dataset = DiabetesDataset('diabetes.csv.gz')
train_loader = DataLoader(dataset= dataset, batch_size=32, shuffle=True, num_workers=2)

# 2.设计模型
class Model(torch.nn.Module):
    def __init__(self):
        super().__init__()
        # 三个线性模型
        self.linear1 = torch.nn.Linear(8,6)
        self.linear2 = torch.nn.Linear(6,4)
        self.linear3 = torch.nn.Linear(4,1)
        self.sigmoid = torch.nn.Sigmoid()   # 可以构造Sigmoid，nn下的Sigmoid是一个模块，不是单纯的函数

    def forward(self,x):
        x = self.sigmoid(self.linear1(x))
        x = self.sigmoid(self.linear2(x))
        x = self.sigmoid(self.linear3(x))
        return x

model = Model()

# 3.损失函数和优化器
# 还是二分类，直接用BCE损失即可
criterion = torch.nn.BCELoss(size_average=True)
optimizer = torch.optim.SGD(model.parameters(), lr=0.1)

# 4.训练过程
if __name__ == '__main__':
    for epoch in range(10):
         for i, data in enumerate(train_loader,0):
        #  1.准备数据
            inputs, labels = data
        #  2. 前馈
            y_pred = model(inputs)
            loss = criterion(y_pred, labels)
            print(epoch, i, loss.item())
        #  3. 反馈
            optimizer.zero_grad()
            loss.backward()
        # 4. 更新
            optimizer.step()

青山的青衫

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【PyTorch深度学习实践】07_Dataset和Dataloader

绝大多数时候需要以 batch 的形式访问数据集。Dataloader 这个接口提供了这样的功能，它能够基于我们自定义的数据集将其转换成一个可迭代对象以便我们批量访问。torch.utils.data.Dataset是一个抽象类，不可以实例化，但是可以通过构建这个抽象类的子类来创建数据集。方法，所以继承之后我们的数据集也会拥有此方法，从而合并数据集只需使用 + 运算即可。后，该方法能够根据索引返回对应的单个样本及其对应的标签（以元组形式）这段代码可以创建一个可迭代对象。:返回整个数据集的大小。
复制链接

扫一扫