深度学习（三）：优化器

大家都要开心

已于 2022-10-26 15:10:53 修改

阅读量2k

点赞数 3

分类专栏：深度学习文章标签：深度学习人工智能 python

于 2022-08-17 18:12:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47357629/article/details/126386999

版权

深度学习专栏收录该内容

5 篇文章 16 订阅

订阅专栏

往往求解目标函数的最优解时，需要对函数进行进行最优化，因此会用到一些比较经典的优化器。总的来说可以分为三类，一类是梯度下降法（Gradient Descent），一类是动量优化法（Momentum），另外就是自适应学习率优化算法。

Optimizers是在网络训练时，对网络权重进行更新，使得模型最优化loss，现阶段主流的深度学习优化器是基于梯度的优化方法，代表有：SGD，Momentum，AdaGrad，Adam，Nesterov，RMSprop等。

1. SGD – 随机梯度下降法（Stochastic Gradient Descent）

函数朝着梯度方向上升最快，梯度反方向下降最快。而在深度学习的目标中，是最小化loss。直觉上可以想到能使用梯度下降方法，来最优化loss。

他的缺点是更新比较频繁，会有严重的震荡。

2. Momentum

Momentum原本来源物理，表示动量。

它可以在梯度方向不变的维度上使速度变快，在梯度方向有所改变的维度上更新速度更慢，可以抵消某些维度的摆动，加快收敛并减小震荡。

举个简单的例子：当我们将一个小球从山上滚下来，没有阻力时，它的动量会越来越大，但是如果遇到了阻力，速度就会变小，动量优化法就是借鉴此思想。

这是一种自适应的学习率策略，自适应梯度法。

他的缺点是分母会不断累计，最终学习率会变得非常小。如果初始梯度很大，会导致学习率变得很小。它适合用于稀疏数据。

4.Adam

Adam将Momentum和AdaGrad结合在一起。

5.Nesterov

Nesterov 是对Momentum的改进和优化，其形式与Momentum极其相似。

能够让算法提前看到前方的地形梯度，如果前面的梯度比当前位置的梯度大，那我就可以把步子迈得比原来大一些，如果前面的梯度比现在的梯度小，那我就可以把步子迈得小一些

6.RMSprop

RMSprop通过在AdaGrad的基础上，增加一个衰减系数来控制历史信息的获取量。

医学造影成像领域

现代医学常常要借助 CT、B 超、核磁等手段造影成像，作为判断病情的重要手段。其中 CT 成像是由若干射线源与接收器来采集数据，在实际应用中，受到设备、病人条件等限制，常常不能做到全角度扫描，故而在成像算法上也常常要面对稀疏数据。

如果数据是稀疏的，就用自适用方法，即 Adagrad, Adadelta, RMSprop, Adam。

大家都要开心

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
深度学习（三）：优化器

这个主干网络大多时候指的是提取特征的网络，其作用就是提取图片中的信息，共后面的网络使用。让网络的这两个部分同时进行训练，因为加载的backbone模型已经具有提取特征的能力了，在我们的训练过程中，会对他进行微调，使得其更适合于我们自己的任务。3.Bottleneck：瓶颈的意思，通常指的是网络输入的数据维度和输出的维度不同，输出的维度比输入的小了许多，就像脖子一样，变细了。经常设置的参数 bottle_num=256，指的是网络输出的数据的维度是256 ，可是输入进来的可能是1024维度的。......
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。