梯度下降

1.梯度下降(Gradient Descent)、批量梯度下降(Batch Gradient Descent,简称BGD)与随机梯度下降(Stochastic Gradient Descent,简称SGD):自变量向着梯度反方向移动,可以减小函数值。
一维: x ← x − η f ′ ( x ) x\leftarrow x-\eta f'(x) xxηf(x)
多维: x ← x − η ∇ f ( x ) \bf{x\leftarrow x-\eta} \nabla \bf{f(x)} xxηf(x)
其中, η \eta η是学习率。
缺点:会出现收敛到局部极小值的问题。
这里的 f f f f \bf f f是模型中的损失函数,而 x x x x \bf x x是模型中的参数。如果是针对所有样本计算损失函数再优化参数,算法叫做批量梯度下降法;如果是针对每一个样本计算损失函数,然后优化参数,算法叫做随机梯度下降法。
2.牛顿法
一维: x ← x − η f ′ ( x ) f " ( x ) x\leftarrow x-\eta \frac{f'(x)}{f"(x)} xxηf"(x)f(x)
多维: x ← x − η H f − 1 ∇ f ( x ) \bf{x\leftarrow x-\eta H^{-1}_f\nabla f(x)} xxηHf1f(x)
其中, η \eta η是学习率, H f \bf{H_f} Hf是函数 f ( x ) \bf{f(x)} f(x)的Heissan矩阵。
优点:梯度下降“步幅”的确定比较困难,而牛顿法相当于可以通过Hessian矩阵来调整“步幅”。
缺点:会出现收敛到局部极小值的问题。
3.动态学习率的随机梯度下降:其学习率是随时间动态变化的,不是常量。
一维: x ← x − η ( t ) f ′ ( x ) x\leftarrow x-\eta (t) f'(x) xxη(t)f(x)
多维: x ← x − η ( t ) ∇ f ( x ) \bf{x\leftarrow x-\eta (t)} \nabla \bf{f(x)} xxη(t)f(x)
其中, η ( t ) \eta (t) η(t)是学习率,学习率的设计方法:
η ( t ) = η i  if  t i ≤ t ≤ t i + 1  piecewise constant  η ( t ) = η 0 ⋅ e − λ t  exponential  η ( t ) = η 0 ⋅ ( β t + 1 ) − α  polynomial  \begin{array}{ll}{\eta(t)=\eta_{i} \text { if } t_{i} \leq t \leq t_{i+1}} & {\text { piecewise constant }} \\ {\eta(t)=\eta_{0} \cdot e^{-\lambda t}} & {\text { exponential }} \\ {\eta(t)=\eta_{0} \cdot(\beta t+1)^{-\alpha}} & {\text { polynomial }}\end{array} η(t)=ηi if titti+1η(t)=η0eλtη(t)=η0(βt+1)α piecewise constant  exponential  polynomial 
第一种方法:可以自己指定不同时间段的学习率,开始的时候可以设计得很大,让其加速收敛,然后逐渐减小,避免震荡。
第二种方法:采用指数衰减。
第三种方法:采用多项式衰减。
4.小批量随机梯度下降(mini-batch-GD,简称MBGD):批量梯度下降是针对全部训练样本计算所得的损失函数计算关于参数的梯度,然后通过上述迭代公式优化参数值;小批量随机梯度下降,是先将训练样本分成一批一批的(一批样本的个数一般大于1,如果等于1就是随机梯度下降),在一次训练循环(epoch)中,先计算完一批样本的损失函数关于参数的梯度,通过迭代公式优化参数值,然后再利用下一批样本优化参数,所有批次的样本都使用过后,这一次训练循环(epoch)才结束。因此,它采用的优化参数的迭代公式与批量梯度下降一致。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值