《PyTorch深度学习实践》第八讲加载数据集

一、

1、DataSet 是抽象类,不能实例化对象,主要是用于构造我们的数据集

2、DataLoader 需要获取DataSet提供的索引[i]和len;用来帮助我们加载数据,比如说做shuffle(提高数据集的随机性),batch_size,能拿出Mini-Batch进行训练。它帮我们自动完成这些工作。DataLoader可实例化对象。DataLoader is a class to help us loading data in Pytorch.

3、__getitem__目的是为支持下标(索引)操作
 

二、

import torch
import numpy as np
from torch.utils.data import Dataset
from torch.utils.data import DataLoader
 
# prepare dataset
 
 
class DiabetesDataset(Dataset):
    def __init__(self, filepath):
        xy = np.loadtxt(filepath, delimiter=',', dtype=np.float32)
        self.len = xy.shape[0] # shape(多少行,多少列)
        self.x_data = torch.from_numpy(xy[:, :-1])
        self.y_data = torch.from_numpy(xy[:, [-1]])
 
    def __getitem__(self, index):
        return self.x_data[index], self.y_data[index]
 
    def __len__(self):
        return self.len
 
 
dataset = DiabetesDataset('diabetes.csv')
train_loader = DataLoader(dataset=dataset, batch_size=32, shuffle=True, num_workers=0) #num_workers 多线程
 
 
# design model using class
 
 
class Model(torch.nn.Module):
    def __init__(self):
        super(Model, self).__init__()
        self.linear1 = torch.nn.Linear(8, 6)
        self.linear2 = torch.nn.Linear(6, 4)
        self.linear3 = torch.nn.Linear(4, 1)
        self.sigmoid = torch.nn.Sigmoid()
 
    def forward(self, x):
        x = self.sigmoid(self.linear1(x))
        x = self.sigmoid(self.linear2(x))
        x = self.sigmoid(self.linear3(x))
        return x
 
 
model = Model()
 
# construct loss and optimizer
criterion = torch.nn.BCELoss(reduction='mean')
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
 
# training cycle forward, backward, update
if __name__ == '__main__':
    for epoch in range(100):
        for i, data in enumerate(train_loader, 0): # train_loader 是先shuffle后mini_batch
            inputs, labels = data
            y_pred = model(inputs)
            loss = criterion(y_pred, labels)
            print(epoch, i, loss.item())
 
            optimizer.zero_grad()
            loss.backward()
 
            optimizer.step()

1、需要mini_batch 就需要import DataSet和DataLoader

2、继承DataSet的类需要重写init,getitem,len魔法函数。分别是为了加载数据集,获取数据索引,获取数据总量。

3、DataLoader对数据集先打乱(shuffle),然后划分成mini_batch。

4、len函数的返回值 除以 batch_size 的结果就是每一轮epoch中需要迭代的次数。

5、inputs, labels = data中的inputs的shape是[32,8],labels 的shape是[32,1]。也就是说mini_batch在这个地方体现的

6、diabetes.csv数据集老师给了下载地址,该数据集需和源代码放在同一个文件夹内。

问题:loss没有收敛

网友解决:

做了两个实验:(1)输出每批次的loss,不收敛,loss在0.6上下浮动(2)每个epoch都不分批,把所有样本都输入,收敛,最后结果在0.6附近。所以猜测:小样本之间的loss差距相对于0.6而言有点大,所以看着像是没收敛,实际上从总loss来看已经收敛了

  • 5
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
使用PyTorch实现经典模型AlexNet并在至少一个数据集上进行试验分析如下: AlexNet是由Hinton的学生Alex Krizhevsky等人在2012年提出的,是第一个成功应用深度学习模型于ImageNet大规模视觉识别挑战赛(ILSVRC)的模型。它深度、宽度较大,有8个卷积层和3个全连接层。下面描述了使用PyTorch框架实现AlexNet的步骤: 1. 首先,导入所需的PyTorch库,并加载数据集。可以使用CIFAR-10数据集进行试验,该数据集包含10个不同类别的60000个32x32彩色图像。 2. 接下来,构建AlexNet模型的网络结构。使用PyTorch中的nn.Module来定义模型类。程序可以定义一个继承自nn.Module的类,并在其中定义模型的网络结构,如卷积层、池化层和全连接层等。在AlexNet的网络结构中,可以使用nn.Conv2d代表卷积层,nn.ReLU代表激活函数,nn.MaxPool2d代表池化层,nn.Linear代表全连接层。 3. 实现前向传播函数。在模型类中实现forward函数,定义了从输入到输出的数据流动过程。在AlexNet中,全连接层之前通常会使用nn.Dropout来防止过拟合。 4. 执行反向传播和优化。定义损失函数,可以使用nn.CrossEntropyLoss来计算分类损失。然后定义优化器,如Adam或SGD等,并使用反向传播法更新模型参数。 5. 开始训练和验证模型。此时,可以将数据集分为训练集和验证集。在每个训练循环中,分批次加载训练集数据,并对模型进行训练。在验证循环中,分批次加载验证集,并计算模型在验证集上的准确率等指标。 6. 可以进行模型的微调和超参数调整,以提高模型性能。 进行试验分析时,可以计算模型在验证集或测试集上的准确率、精确率、召回率以及F1值等指标,评估模型的性能。还可以通过绘制损失曲线和准确率曲线等图表,进行可视化分析。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值