pytorch-解决过拟合之动量与学习率衰减

最新推荐文章于 2024-04-30 11:25:10 发布

wyw0000

最新推荐文章于 2024-04-30 11:25:10 发布

阅读量727

点赞数 15

分类专栏： pytorch 文章标签： pytorch

本文链接：https://blog.csdn.net/wyw0000/article/details/138174688

版权

pytorch 专栏收录该内容

33 篇文章 0 订阅

订阅专栏

本文介绍了在深度学习中，如何在PyTorch中利用动量（Momentum）提升梯度更新的稳定性，以及两种常见的学习率衰减方法：基于loss连续几次无改善的ReduceLROnPlateau和步进式衰减。特别提到SGD和Adam优化器对动量的支持情况。

摘要由CSDN通过智能技术生成

1. momentum动量

下图给出了梯度公式和增加了动量的梯度公式，β $z^k$ 其中的 $z^k$ 就是上次的梯度，而β决定了 $w^{k+1}$ 更偏向于上次梯度还是本次梯度。也就是说梯度增加了动量后，梯度更新要同时考虑上次的惯性和本次的梯度。
在这里插入图片描述
未加动量

加了动量

从两幅图可以看出加了动量比未加动量要平滑的多，未加动量很难找到全局极小值，而加了动量后找到全局极小值的概率要大的多。

2. pytorch增加momentum

如图中SGD优化器增加momentum参数，而Adam优化器是不支持输入动量参数的
在这里插入图片描述

3. 学习率衰减

下图为三种学习率模型曲线的不同表现，学习率太低训练比较慢，比如本来4天训完，结果可能10天才能训完，学习率太高loss震荡比较厉害很难找到极小值。
在这里插入图片描述

所谓学习率衰减就是开始使用较大的学习率，之后使用一定的策略使学习率不断减小，比如：有60k数据每训练10k学习率减小1/2

4. 学习率衰减的方式

4.1 loss连续几次无改善衰减

torch.optim.lr_scheduler.ReduceLROnPlateau函数的功能是，当loss在patience个连续epoch后没有改善时，就减小学习率factor倍

CLASS torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.1, patience=10, threshold=0.0001, threshold_mode='rel', cooldown=0, min_lr=0, eps=1e-08, verbose='deprecated')