pytorch学习（十五）：GPU训练

LightningJie

于 2024-08-12 21:52:31 发布

阅读量31

点赞数 1

分类专栏： pytorch 文章标签： pytorch 学习人工智能

本文链接：https://blog.csdn.net/weixin_52307528/article/details/141139246

版权

pytorch 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

改为GPU训练，就需要改几行代码就可以；

.cuda()

网络结构、数据、损失函数

if torch.cuda.is_available():
    wang=wang.cuda()

if torch.cuda.is_available():
    loss_fn=loss_fn.cuda()

if torch.cuda.is_available():
    imgs = imgs.cuda()
    targets = targets.cuda()

# -*- coding: utf-8 -*-  
# File created on 2024/8/11
# 作者：酷尔
# 公众号：酷尔计算机
import torchvision
from torch import nn
from torch.utils.data import DataLoader
import torch
from torch.utils.tensorboard import SummaryWriter
import time
train_data=torchvision.datasets.CIFAR10('./dataset',train=True,download=True,transform=torchvision.transforms.ToTensor())
test_data=torchvision.datasets.CIFAR10('./dataset',train=False,download=True,transform=torchvision.transforms.ToTensor())

train_data_size=len(train_data)
test_data_size=len(test_data)
print("训练数据集的长度为：{}".format(train_data_size),"测试数据集的长度为：{}".format(test_data_size))

train_dataloader=DataLoader(train_data,batch_size=64)
test_dataloader=DataLoader(test_data,batch_size=64)

#创建网络模型
class Wang(nn.Module):
    def __init__(self):
        super(Wang, self).__init__()
        self.model1=nn.Sequential(
            nn.Conv2d(3, 32, 5, padding=2),
            nn.MaxPool2d(2),
            nn.Conv2d(32, 32, 5, padding=2),
            nn.MaxPool2d(2),
            nn.Conv2d(32, 64, 5, padding=2),
            nn.MaxPool2d(2),
            nn.Flatten(),
            nn.Linear(1024, 64),
            nn.Linear(64, 10),
        )

    def forward(self,x):
        x=self.model1(x)
        return x
wang=Wang()
if torch.cuda.is_available():
    wang=wang.cuda()
#损失函数
loss_fn=nn.CrossEntropyLoss()
if torch.cuda.is_available():
    loss_fn=loss_fn.cuda()
#优化器
# learning_rate=0.01
learning_rate=1e-2
optimizer=torch.optim.SGD(wang.parameters(),lr=learning_rate)

#设置训练网络的一些参数
#记录训练的次数
total_train_step=0
#记录测试的次数
total_test_step=0
#训练的轮数
epoch=10

#添加tensorboard
writer=SummaryWriter("logs_train")

start_time=time.time()
for i in range(epoch):
    print(f"-------------第{i+1}轮训练开始---------------")

    wang.train()
    for data in train_dataloader:
        imgs,targets=data
        if torch.cuda.is_available():
            imgs=imgs.cuda()
            targets=targets.cuda()
        output=wang(imgs)
        loss=loss_fn(output,targets)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        total_train_step+=1
        if total_train_step%100==0:
            end_time=time.time()
            print(end_time-start_time)
            print("训练次数：{}，Loss:{}".format(total_train_step,loss))
            writer.add_scalar("train_loss",loss.item(),total_train_step)
    #测试
    wang.eval()
    total_test_loss=0
    total_accuracy=0
    with torch.no_grad():
        for data in test_dataloader:
            imgs,targets=data
            if torch.cuda.is_available():
                imgs = imgs.cuda()
                targets = targets.cuda()
            output=wang(imgs)
            loss=loss_fn(output,targets)
            total_test_loss+=loss.item()
            accuracy=(output.argmax(1)==targets).sum()
            total_accuracy+=accuracy

    print("整理测试集上的Loss：{}".format(total_test_loss))
    print("整体测试集上的正确率：{}".format(total_accuracy/test_data_size))
    writer.add_scalar("test_loss", total_test_loss,total_test_step)
    writer.add_scalar("test_accuracy", total_accuracy/test_data_size, total_test_step)
    total_test_step+=1

    torch.save(wang,"./models/wang_{}.pth".format(i))
    print("模型已保存")

writer.close()

.to(device)

device=torch.device("cuda")

# -*- coding: utf-8 -*-  
# File created on 2024/8/11
# 作者：酷尔
# 公众号：酷尔计算机
import torchvision
from torch import nn
from torch.utils.data import DataLoader
import torch
from torch.utils.tensorboard import SummaryWriter
import time
#定义训练的设备
device=torch.device("cuda")

train_data=torchvision.datasets.CIFAR10('./dataset',train=True,download=True,transform=torchvision.transforms.ToTensor())
test_data=torchvision.datasets.CIFAR10('./dataset',train=False,download=True,transform=torchvision.transforms.ToTensor())

train_data_size=len(train_data)
test_data_size=len(test_data)
print("训练数据集的长度为：{}".format(train_data_size),"测试数据集的长度为：{}".format(test_data_size))

train_dataloader=DataLoader(train_data,batch_size=64)
test_dataloader=DataLoader(test_data,batch_size=64)

#创建网络模型
class Wang(nn.Module):
    def __init__(self):
        super(Wang, self).__init__()
        self.model1=nn.Sequential(
            nn.Conv2d(3, 32, 5, padding=2),
            nn.MaxPool2d(2),
            nn.Conv2d(32, 32, 5, padding=2),
            nn.MaxPool2d(2),
            nn.Conv2d(32, 64, 5, padding=2),
            nn.MaxPool2d(2),
            nn.Flatten(),
            nn.Linear(1024, 64),
            nn.Linear(64, 10),
        )

    def forward(self,x):
        x=self.model1(x)
        return x
wang=Wang()
wang=wang.to(device)
#损失函数
loss_fn=nn.CrossEntropyLoss()
loss_fn=loss_fn.to(device)
#优化器
# learning_rate=0.01
learning_rate=1e-2
optimizer=torch.optim.SGD(wang.parameters(),lr=learning_rate)

#设置训练网络的一些参数
#记录训练的次数
total_train_step=0
#记录测试的次数
total_test_step=0
#训练的轮数
epoch=10

#添加tensorboard
writer=SummaryWriter("logs_train")

start_time=time.time()
for i in range(epoch):
    print(f"-------------第{i+1}轮训练开始---------------")

    wang.train()
    for data in train_dataloader:
        imgs,targets=data

        imgs=imgs.to(device)
        targets=targets.to(device)
        output=wang(imgs)
        loss=loss_fn(output,targets)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        total_train_step+=1
        if total_train_step%100==0:
            end_time=time.time()
            print(end_time-start_time)
            print("训练次数：{}，Loss:{}".format(total_train_step,loss))
            writer.add_scalar("train_loss",loss.item(),total_train_step)
    #测试
    wang.eval()
    total_test_loss=0
    total_accuracy=0
    with torch.no_grad():
        for data in test_dataloader:
            imgs,targets=data
            imgs = imgs.to(device)
            targets = targets.to(device)
            output=wang(imgs)
            loss=loss_fn(output,targets)
            total_test_loss+=loss.item()
            accuracy=(output.argmax(1)==targets).sum()
            total_accuracy+=accuracy

    print("整理测试集上的Loss：{}".format(total_test_loss))
    print("整体测试集上的正确率：{}".format(total_accuracy/test_data_size))
    writer.add_scalar("test_loss", total_test_loss,total_test_step)
    writer.add_scalar("test_accuracy", total_accuracy/test_data_size, total_test_step)
    total_test_step+=1

    torch.save(wang,"./models/wang_{}.pth".format(i))
    print("模型已保存")

writer.close()