模型训练过程中的一些问题

  1. 调试代码太慢了
    调试的时候 可以让数据量小点 没关系(不要使用完整的数据),减少 n_epoch,k_fold的折数

  2. PyTorch中在反向传播前为什么要手动将梯度清零
    实现低显存跑大batchsize
    梯度累加就是,每次获取1个batch的数据,计算1次梯度,梯度不清空,不断累加,累加一定次数后,根据累加的梯度更新网络参数,然后清空梯度,进行下一次循环。

    一定条件下,batchsize越大训练效果越好,梯度累加则实现了batchsize的变相扩大,如果accumulation_steps为8,则batchsize ‘变相’ 扩大了8倍,是我们这种乞丐实验室解决显存受限的一个不错的trick,使用时需要注意,学习率也要适当放大。

    作者:Pascal
    链接:https://www.zhihu.com/question/303070254/answer/573037166

  3. pytorch loss.item()
    代码中所有的loss都直接用loss表示的,结果就是每次迭代,空间占用就会增加,直到cpu或者gpu爆炸。
    解决办法:把除了loss.backward()之外的loss调用都改成loss.item(),就可以解决。

    作者:陈诚
    链接:https://www.zhihu.com/question/67209417/answer/344752405

  4. 多gpu 训练 每个gpu 都会返回loss 做下平均就好
    梯度只能为标量 ,做梯度计算时 loss 为向量(list) 做不了
    在这里插入图片描述
    在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
深度模型训练是一个复杂的过程,需要注意许多细节才能获得最佳的性能。以下是一些需要注意的细节: 1. 数据预处理:在训练模型之前,需要对数据进行预处理,包括归一化、去噪、数据增强等。这些预处理可以提高模型的鲁棒性和泛化能力。 2. 学习率调整:学习率是控制模型训练速度和质量的重要超参数。在训练过程,可以根据模型的表现动态调整学习率,以提高模型的性能。 3. 正则化:正则化可以避免模型过拟合,包括L1正则化、L2正则化、Dropout等。需要根据具体情况选择合适的正则化方法。 4. 批量归一化:批量归一化可以加速模型训练,提高模型的鲁棒性和泛化能力。需要在模型加入批量归一化层,并调整其参数。 5. 损失函数选择:损失函数是模型训练的核心,需要根据具体问题选择合适的损失函数。常见的损失函数包括均方误差、交叉熵等。 6. 模型初始化:模型初始化可以影响模型训练速度和性能。需要选择合适的初始化方法,如Xavier初始化、He初始化等。 7. 训练集和验证集划分:需要将数据集划分为训练集和验证集,以便在训练过程监控模型的性能。一般采用交叉验证的方法进行划分。 8. 模型保存和恢复:需要定期保存模型的参数和状态,以便在训练断后能够恢复模型。可以使用TensorFlow提供的Saver对象进行模型保存和恢复。 9. 超参数调整:超参数是控制模型性能的关键因素,需要根据具体问题进行调整。常见的超参数包括学习率、正则化系数、批量大小等。 10. 模型评估:需要定期评估模型的性能,包括损失函数、准确率等指标。可以使用TensorFlow提供的评估函数进行评估。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值