定义损失函数并以此训练和评估模型

基础神经网络模型搭建 

【Pytorch】数据集的加载和处理(一)

【Pytorch】数据集的加载和处理(二)

损失函数计算模型输出和目标之间的距离。通过torch.nn 包可以定义一个负对数似然损失函数,负对数似然损失对于训练具有多个类的分类问题比较有效,负对数似然损失函数的输入为对数概率,而在模型搭建的输出层部分接触过log_softmax,它能从模型中获取对数概率

目录

基础模型搭建

数据集的加载和处理

定义损失函数

定义优化器

训练并评估模型


基础模型搭建

import torch
from torch import nn
import torch.nn.functional as F
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
    def forward(self, x):
         pass
def __init__(self):
    super(Net, self).__init__()
    self.conv1 = nn.Conv2d(1, 20, 5, 1)
    self.conv2 = nn.Conv2d(20, 50, 5, 1)
    self.fc1 = nn.Linear(4*4*50, 500)
    self.fc2 = nn.Linear(500, 10)
def forward(self, x):
    x = F.relu(self.conv1(x))
    x = F.max_pool2d(x, 2, 2)
    x = F.relu(self.conv2(x))
    x = F.max_pool2d(x, 2, 2) 
    x = x.view(-1, 4*4*50)
    x = F.relu(self.fc1(x))
    x = self.fc2(x)
    return F.log_softmax(x, dim=1)
Net.__init__ = __init__
Net.forward = forward
model = Net()

检查搭建情况 

print(model)

 

原位置为cpu 

 

 转移至所需CUDA设备

device = torch.device("cuda:0")
model.to(device)
print(next(model.parameters()).device)

 

数据集的加载和处理

导入MNIST训练数据集和验证数据集并处理

from torch import nn
from torchvision import datasets
from torch.utils.data import TensorDataset
path2data="./data"
train_data=datasets.MNIST(path2data, train=True, download=True)
x_train, y_train=train_data.data,train_data.targets
val_data=datasets.MNIST(path2data, train=False, download=True)
x_val,y_val=val_data.data, val_data.targets
if len(x_train.shape)==3:
    x_train=x_train.unsqueeze(1)
print(x_train.shape)
if len(x_val.shape)==3:
    x_val=x_val.unsqueeze(1)
print(x_val.shape)
train_ds = TensorDataset(x_train, y_train)
val_ds = TensorDataset(x_val, y_val)
for x,y in train_ds:
    print(x.shape,y.item())
    break

from torch.utils.data import DataLoader 
train_dl = DataLoader(train_ds, batch_size=8)
val_dl = DataLoader(val_ds, batch_size=8)

 

 

定义损失函数

损失函数计算模型输出和目标之间的距离。Pytorch 中的 optim 包提供了各种优化算法的实现,例如SGD、Adam、RMSprop 等。

通过torch.nn 包可以定义一个负对数似然损失函数,负对数似然损失对于训练具有多个类的分类问题比较有效,负对数似然损失函数的输入为对数概率,而在模型搭建的输出层部分接触过log_softmax,它能从模型中获取对数概率。

loss_func = nn.NLLLoss(reduction="sum")
for xb, yb in train_dl:
    # move batch to cuda device
    xb=xb.type(torch.float).to(device)
    yb=yb.to(device)
    out=model(xb)
    loss = loss_func(out, yb)
    print (loss.item())
    break

得到一个测试值 

 

定义优化器

定义一个Adam优化器,优化器的输入是模型参数和学习率

from torch import optim
opt = optim.Adam(model.parameters(), lr=1e-4)

通过opt .step()自动更新模型参数,同时需要注意计算下一批的梯度之前需将梯度归0

opt.step()
opt.zero_grad()

训练并评估模型

定义一个辅助函数 loss_batch来计算每个小批量的损失值。函数的 opt 参数引用优化器,如果给定,则计算梯度并按小批量更新模型参数。

def  loss_batch(loss_func,  xb,  yb,yb_h,  opt=None): 
    loss = loss_func(yb_h, yb) 
    metric_b =  metrics_batch(yb,yb_h) 
    if opt is  not None: 
        loss.backward()
        opt.step()
        opt.zero_grad()
    return loss.item(),metric_b

 定义一个辅助函数metrics_batch来计算每个小批量的性能指标,这里以准确率作为分类任务的性能指标,并使用 output.argmax 来获取概率最高的预测类

def metrics_batch(target, output):
    pred = output.argmax(dim=1, keepdim=True)
    corrects=pred.eq(target.view_as(pred)).sum().item()
    return corrects

定义一个辅助函数loss_epoch来计算整个数据集的损失和指标值。使用数据加载器对象获取小批量,将它们提供给模型,并计算每个小批量的损失和指标,通过两个运行变量来分别添加损失值和指标值。

def loss_epoch(model,loss_func,dataset_dl,opt=None):
    loss=0.0
    metric=0.0
    len_data=len(dataset_dl.dataset)
    for xb, yb in dataset_dl:
        xb=xb.type(torch.float).to(device)
        yb=yb.to(device)
        yb_h=model(xb)
        loss_b,metric_b=loss_batch(loss_func, xb, yb,yb_h, opt)
        loss+=loss_b
        if metric_b is not None:
            metric+=metric_b
    loss/=len_data
    metric/=len_data
    return loss, metric

最后,定义一个辅助函数train_val来训练多个时期的模型。在每个时期使用验证数据集评估模型的性能。训练和评估需要分别使用 model.train()和 model.eval()模式。torch.no_grad()可以阻止 autograd 在评估期间计算梯度。

def train_val(epochs, model, loss_func, opt, train_dl, val_dl):
    for epoch in range(epochs):
        model.train()
        train_loss,train_metric=loss_epoch(model,loss_func,train_dl,opt)
        
        model.eval()
        with torch.no_grad():
            val_loss, val_metric=loss_epoch(model,loss_func,val_dl)
        accuracy=100*val_metric
        
        print("epoch: %d, train loss: %.6f, val loss: %.6f,accuracy: %.2f" %(epoch, train_loss,val_loss,accuracy))

 设定时期数为5,调用函数进行训练和评估

num_epochs=5
train_val(num_epochs, model, loss_func, opt, train_dl, val_dl)

 

### 回答1: 交叉熵损失函数(Cross Entropy Loss Function)是一种常见的机器学习损失函数,它可以用来度量预测值与实际值之间的差异。它也被称为对数损失函数,因为它使用了对数运算。交叉熵损失函数是计算机科学中一个重要的概念,它可以用来衡量预测模型的准确度。它主要用于分类任务,在分类任务中,它是用来衡量预测模型的准确度的理想指标。交叉熵损失函数的计算公式为:L=-Σp(x)log q(x),其中p(x)是目标值的概率分布,q(x)是模型预测值的概率分布。它使用了对数运算,意味着它需要在计算过程中将概率值转换为对数值。交叉熵损失函数一个非常强大的损失函数,它可以用来衡量预测值与实际值之间的差异。交叉熵损失函数一个很有用的损失函数,它可以用来衡量预测模型的准确度,并帮助我们调节模型的参数,以最大程度地提高模型的性能。值得一提的是,交叉熵损失函数也可以用来计算多分类问题的损失函数,因此它可以用来衡量多分类模型的准确度。 ### 回答2: 交叉熵损失函数深度学习中常用的一种损失函数,广泛应用于分类问题中。在深度学习中,我们通常需要训练一个神经网络模型去分类输入的数据。而交叉熵损失函数可以帮助我们评估模型预测结果与实际标签之间的差异,并以此来优化模型的参数。 首先,我们来看一下交叉熵损失函数定义。设模型的预测结果为y,实际标签为t,那么交叉熵损失函数可以定义为: H(y, t) = - ∑(t * log(y)) 其中,∑表示对所有类别进行求和,t和y分别表示实际标签和模型的预测结果。log为自然对数函数。交叉熵损失函数的目标是使得模型的预测结果与实际标签尽可能接近,因此我们希望交叉熵损失函数的值越小越好。 接下来,我们来解释一下交叉熵损失函数的原理。交叉熵损失函数的核心思想是用来衡量两个概率分布之间的相似度。在分类问题中,模型的预测结果可以看作是一个概率分布,而实际标签也可以看作是一个概率分布。交叉熵损失函数通过计算这两个概率分布的差异来度量模型的预测结果与实际标签之间的距离。 在交叉熵损失函数中,实际标签通常采用one-hot编码方式表示。即如果样本属于第i类,则实际标签的第i维为1,其余维度为0。这样,交叉熵损失函数可以看作是对所有类别进行加权求和的负对数似然函数。 交叉熵损失函数的优点是能够更好地刻画预测概率分布与实际标签之间的差异,从而更准确地指导模型参数的优化。此外,交叉熵损失函数还具有良好的数学性质和可解释性,便于模型训练和理解。 总结起来,交叉熵损失函数深度学习中常用的一种损失函数,用于衡量模型预测结果与实际标签之间的差异。通过最小化交叉熵损失函数,可以有效地优化模型的参数,提高分类任务的准确性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

F_D_Z

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值