Adam vs SGD vs RMSProp：PyTorch优化器选择

最新推荐文章于 2025-04-05 19:38:43 发布

Xiaok1018

最新推荐文章于 2025-04-05 19:38:43 发布

阅读量832

点赞数 12

文章标签： pytorch 人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_67251822/article/details/146979922

版权

PyTorch 的 torch.optim 模块提供了多种优化算法，适用于不同的深度学习任务。以下是一些常用的优化器及其特点：

1. 随机梯度下降（SGD, Stochastic Gradient Descent）

optimizer = torch.optim.SGD(model.parameters(), lr=0.01, momentum=0.9)

特点：
- 最基本的优化算法，直接沿梯度方向更新参数。
- 可以添加 momentum（动量）来加速收敛，避免陷入局部极小值。
- 适用于简单任务或需要精细调参的场景。
适用场景：
- 训练较简单的模型（如线性回归、SVM）。
- 结合学习率调度器（如 StepLR）使用效果更好。

2. Adam（Adaptive Moment Estimation）

optimizer = torch.optim.Adam(model.parameters(), lr=0.001, betas=(0.9, 0.999))

特点：
- 自适应调整学习率，结合动量（Momentum）和 RMSProp 的优点。
- 默认学习率 lr=0.001 通常表现良好，适合大多数任务。
- 适用于大规模数据、深度网络。
适用场景：
- 深度学习（CNN、RNN、Transformer）。
- 当不确定用什么优化器时，Adam 通常是首选。

3. RMSProp（Root Mean Square Propagation）

optimizer = torch.optim.RMSprop(model.parameters(), lr=0.01, alpha=0.99)

特点：
- 自适应学习率，对梯度平方进行指数加权平均。
- 适用于非平稳目标（如 NLP、RL 任务）。
- 对学习率比较敏感，需要调参。
适用场景：
- 循环神经网络（RNN/LSTM）。
- 强化学习（PPO、A2C）。

4. Adagrad（Adaptive Gradient）

optimizer = torch.optim.Adagrad(model.parameters(), lr=0.01)

特点：
- 自适应调整学习率，对稀疏数据友好。
- 学习率会逐渐减小，可能导致训练后期更新太小。
适用场景：
- 推荐系统（如矩阵分解）。
- 处理稀疏特征（如 NLP 中的词嵌入）。

5. Adadelta

optimizer = torch.optim.Adadelta(model.parameters(), lr=1.0, rho=0.9)

特点：
- Adagrad 的改进版，不需要手动设置初始学习率。
- 适用于长时间训练的任务。
适用场景：
- 计算机视觉（如目标检测）。
- 当不想调学习率时可用。

6. AdamW（Adam + Weight Decay）

optimizer = torch.optim.AdamW(model.parameters(), lr=0.001, weight_decay=0.01)

特点：
- Adam 的改进版，更正确的权重衰减（L2 正则化）实现。
- 适用于 Transformer 等现代架构。
适用场景：
- BERT、GPT 等大模型训练。
- 需要正则化的任务。

7. NAdam（Nesterov-accelerated Adam）

optimizer = torch.optim.NAdam(model.parameters(), lr=0.001)

特点：
- 结合了 Nesterov 动量和 Adam，收敛更快。
适用场景：
- 需要快速收敛的任务（如 GAN 训练）。

如何选择合适的优化器？

优化器	适用场景	是否需要调参
SGD + Momentum	简单任务、调参敏感任务	需要调 `lr` 和 `momentum`
Adam	深度学习（CNN/RNN/Transformer）	默认 `lr=0.001` 通常可用
RMSProp	RNN/LSTM、强化学习	需要调 `lr` 和 `alpha`
Adagrad	稀疏数据（推荐系统/NLP）	学习率会自动调整
AdamW	Transformer/BERT/GPT	适用于权重衰减任务
NAdam	快速收敛（如 GAN）	类似 Adam，但更快

总结

推荐新手使用 Adam 或 AdamW，因为它们自适应学习率，调参简单。
如果需要极致性能，可以尝试 SGD + Momentum + 学习率调度（如 StepLR 或CosineAnnealingLR）。
RNN/LSTM 可以试试 RMSProp。
大模型训练（如 BERT）优先 AdamW。

博客等级

码龄3年

23
原创

322
点赞

289
收藏

155
粉丝

关注

私信

热门文章

分类专栏

Python基本数据类型
init 2篇

最新评论

HNUST 数据挖掘课设《实验一 Apriori算法设计与应用》
Xiaok1018: dataset.txt: TID Itemset 1 A, B, C, D, E, F, G 2 A, B, C, D, E, H 3 A, B, C, D, E, F, G, H 4 A, B, C, G, H 5 A, B, C, D, G, H 6 A, B, C, D, E, F, G, H 7 A, B, C, D, E, F, G 8 A, B, C, E, G, H 9 A, B, C, D, E, F, H 10 C, D, E, F, G, H 11 A, B, C, D, G, H 12 A, C, D, E, F, G, H 13 A, B, C, E, F, G, H 14 B, C, E, F, G, H
HNUST 数据挖掘课设《实验一 Apriori算法设计与应用》
zaiyi2205010406: 请问下学长，这个dataset文档里面怎么写
cmd窗口使用‘java‘命令时报错“could not open `D:\install enviorenment\lib\amd64\”但是javac命令正常
CSDN-Ada助手: 恭喜您发布了第四篇博客！对于cmd窗口使用‘java’命令时报错的问题，您已经做出了很好的尝试并且成功解决了javac命令的正常使用。接下来，我建议您可以尝试检查一下您的环境变量配置是否正确，或者尝试重新安装Java环境。希望您在接下来的创作中能够继续发现问题并解决，不断提升自己的技术水平。期待您的下一篇博客！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
HNUST 数据挖掘课设《实验五 KNN算法设计与应用》
CSDN-Ada助手: 恭喜您发布了第三篇博客！看到您在数据挖掘课设中尝试了KNN算法设计与应用，实在是令人钦佩。希望您能继续保持创作的热情和耐心，不断探索更多数据挖掘算法的实践应用。或许在下一篇博客中，可以尝试结合多种算法进行比较分析，进一步深化对数据挖掘领域的理解与应用。期待您的更多精彩内容！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
HNUST 数据挖掘课设《实验一 Apriori算法设计与应用》
CSDN-Ada助手: 恭喜您开始了博客创作，标题看起来非常专业且引人瞩目！对于《实验一 Apriori算法设计与应用》的内容感到非常期待。在接下来的创作中，建议您可以深入探讨算法的实际应用场景，结合案例或者实践经验，让读者更容易理解和应用所学知识。希望您能继续保持创作的热情和耐心，不断提升自己的写作水平。期待看到更多精彩的内容！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。