机器学习之优化算法(从SGD到Adam)

我们已经知道梯度下降法,需要沿着整个训练集的梯度反向下降。使用随机梯度下降方法,选取小批量数据的梯度下降方向,可以在很大程度上进行加速。SGD及其变种可能是机器学习中应用最多的优化算法。我们按照下面的顺序一一理解一下这些算法。

SGD->SGDM->NAG->AdaGrad->RMSProp->Adam->Nadam

1、随机梯度下降(SGD)

核心是按照数据生成分布抽取m个小批量样本,通过计算它们的梯度均值,来得到整体梯度的无偏估计。

  • 需要:学习率 ϵk ϵ k , 初始参数 θ θ
  • 迭代过程:
    while 未满足停止准则 do
    从训练集中采样m个样本 { x(1)...,x(m)} { x ( 1 ) . . . , x ( m ) } 的小批量, x(i) x ( i ) 对应 y(i) y ( i )
    计算梯度估计: ĝ :=1mθiL(f(x
  • 2
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值