学习心得:不同优化求解器的特点

     在神经网络中有几种常用的优化求解算法,在这里主要记录一下各个算法的优势和缺点,对选择提供一些依据。

常用算法

  1. sgd:随机梯度下降法。每次从训练集中随机选择batch_size个样本进行正向传播计算平均loss,再进行反向传播更新权重参数。
  2. Momentum SGD和Nesterov Momentum(下面统称动量法):增加了动量项。
  3. Adagrad:在学习率上做文章。固定的学习率除以每个参数的历史更新累加值。
  4. Adadelta:直接对每次更新的△W进行改进,学习率由一个除法得到,分母是历史的梯度累加,分子是历史的参数更新累加值。
  5. RMSprop:Hinton提出的。固定的学习率除以参数的历史更新累加值。看起来与Adagrad很像,但是RMSprop是按权重累加,解决了Adagrad越加越大的问题。
  6. Adam:同时使用了动量和梯度的平方和加权。

算法优缺点

算法名称优点缺点
sgd每次都能直奔目标点,不走弯路收敛速度慢,容易陷入局部最优点
动量法收敛速度比较快,具备跳出局部最优点的能力由于动量比较大,因此经常容易冲过目标点,然后再往回进行收敛
Adagrad对不同参数的学习率区别对待,前期收敛速度比较快,不会陷入局部最优点训练后期学习率过小导致收敛速度变慢
Adadelta不需要人工给定学习率,收敛速度快,不会陷入局部最优点容易冲过全局最优点
RMSpropHinton已经给出学习率,收敛速度快,不会陷入局部最优点容易冲过全局最优点

     实际使用中,可以选择目前最常用的几个,如RMSprop、Adam等,效果一般不错。不过据说Adam会比同样达到最优的sgd在性能上低1个百分点。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值