深度学习中模型打印每个迭代的损失值和梯度范数

nsq_ai

已于 2024-08-13 09:06:21 修改

阅读量231

点赞数 4

分类专栏： python bug 文章标签：深度学习人工智能

于 2024-08-12 18:09:25 首次发布

本文链接：https://blog.csdn.net/weixin_45063703/article/details/141138607

版权

python bug 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

前言

为了打印每个迭代的损失值和梯度范数，需要在训练循环中添加相应的代码。
这里是一个修改后的训练函数，它包含了打印损失值和梯度范数的逻辑：

代码

import torch
import torch.nn as nn
from torch.utils.data import DataLoader

def train(model, train_loader, test_loader, num_epochs, loss_function, optimizer, args):
    # 初始化训练和测试loss的列表
    train_losses = []
    
    # 加载预训练模型（仅一次）并冻结其参数
    pretrained_model = torch.load("./model_saved/dnn_forward.pt").to(args.device)
    pretrained_model.train()
    
    # 训练循环
    model.train()
    for epochs in range(num_epochs):
        epoch_loss = 0.0
        for i, (x_train, y_train) in enumerate(train_loader):
            x_train, y_train = x_train.to(args.device), y_train.to(args.device)
            optimizer.zero_grad()  # 清除之前的梯度
            
            y_pred = model(x_train)  # 当前模型的前向传播
            with torch.no_grad():
                dnn_p = pretrained_model(y_pred)  # 通过预训练模型
            
            loss = loss_function(dnn_p, x_train)  # 计算损失
            loss.backward()  # 反向传播计算梯度
            
            # 打印损失值和梯度范数
            print(f"Epoch [{epochs+1}/{num_epochs}], Step [{i+1}/{len(train_loader)}], "
                  f"Loss: {loss.item():.4f}, "
                  f"Grad Norm: {calculate_grad_norm(model.parameters()):.4f}")
            
            optimizer.step()  # 更新模型参数
            epoch_loss += loss.item() * x_train.size(0)  # 累计损失
        
        # 计算并保存平均损失
        epoch_loss /= len(train_loader.dataset)
        train_losses.append(epoch_loss)
        print(f"Epoch [{epochs+1}/{num_epochs}] average Loss: {epoch_loss:.4f}")
    
    # 如果有测试集，可以在这里添加测试代码
    # ...
    
    return train_losses  # 返回训练损失列表

# 辅助函数：计算梯度范数
def calculate_grad_norm(parameters):
    total_norm = 0.0
    for p in parameters:
        if p.grad is not None:
            param_norm = p.grad.data.norm(2)
            total_norm += param_norm.item() ** 2
    total_norm = total_norm ** (1. / 2)
    return total_norm