几种常见的优化方法

梯度下降法

在这里插入图片描述
这种算法比较直白,参数的变化量完全依赖于学习率和当前batch的损失。缺点也很明显,因为batch是随机的,所以变化的方向不确定。
从梯度下降法可以看出,参数的变化量完全依赖于学习率和当前batch的损失。所以有两种改进方法,一种是改进“损失”,另外一种则是改进学习率。

momentum

momentum算法是用于改进梯度下降法的。momentum算法的公式为:
在这里插入图片描述
参数的变换量又两部分组成,一部分是“惯性”,另一部分是损失,可以降低batch不均匀的影响。

adagrad

adagrad是一种自动修改学习率的算法,其公式为:
在这里插入图片描述

其学习率为初始学习率/梯度平方的累积和。所以可以得知,越到后期,随着梯度平方的累计和越来越大,学习率就会越来越小。
adagrad可以解决学习后期学习率过大导致的震荡问题,但是adagrad又引发了一个新的问题,就是学习率会过早的减少,导致学习太慢。

RMSprop

RMSprop是adagrad的改进版,其公式为:
在这里插入图片描述
在这里插入图片描述
adagrad算法需要累计遥远的历史信息,RMSprop则仅仅使用最近的信息,一样能达到降低学习率的效果,并且不会过早衰减,节省内存,在非凸的情况下表现比adagrad更好。

Adam

Adam

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值