CS231n Lecture 8: Training Neural Networks Part2-CSDN博客

本文链接：https://blog.csdn.net/weixin_43996402/article/details/115795489

Optimization

动量版SGD

SGD仍然还有一些问题：当损失函数在一个方向快速改变，另一个方向很慢地改变时，梯度下降会变成非常慢地一个过程

同时，SGD对于驻点和局部最小值的表现并不好，在那些地方会堵住。因此，现在考虑一种SGD+动量的方法：

现在的速度 = 摩擦系数 * 之前的速度+梯度

新的权重 = 旧的权重 - 学习率 * 新的速度

摩擦系数一般取0.9或0.99

Nesterov 动量

$\begin{aligned}v_{t+1} &=\rho v_{t}-\alpha \nabla f\left(x_{t}+\rho v_{t}\right) \\x_{t+1} &=x_{t}+v_{t+1}\end{aligned}$

相当于在动量改变前，我先用现在的速度到未来的位置看未来的梯度，这样就可以提前知道梯度的变化了。

换元后，可以看到是这样的

$\begin{aligned}v_{t+1} &=\rho v_{t}-\alpha \nabla f\left(\tilde{x}_{t}\right) \\\tilde{x}_{t+1} &=\tilde{x}_{t}-\rho v_{t}+(1+\rho) v_{t+1} \\&=\tilde{x}_{t}+v_{t+1}+\rho\left(v_{t+1}-v_{t}\right)\end{aligned}$

dx = compute_gradient(x)
old_v = v
v = rho * v - learning_rate * dx
x += -rho * old_v + (1 + rho) * v

AdaGrad

在这里插入图片描述

可以看到，这里加上了dx的平方作为梯度，可以起到加大步长的效果。但是，随着训练时间的延长，步长会越来越小。

因此，就会有新的RMSProp梯度更新法

RMSProp

这里是用了衰减率来限制住学习率不会随时间的延长而缩小

Adam

该算法集百家之所长，究极缝合怪算法

first_moment = 0
second_moment = 0
for t in range(1, num_iterations):
	first_moment = beta1 * first_moment + (1 - beta1) * dx
	second_moment= beta2 * second_moment + (1 - beta2) * dx * dx
	first_unbias = first_moment / (1 - beta1 ** t)
	second_unbias = second_moment / (1 - beta2 ** t)
	x -= learning_rate * first_unbias / (np.sqrt(second_unbias) + 1e-7)

unbias存在的意义是first和second moment的值在开始的时候都是0，这会让更新的值存在一些不可控的影响

Adam在开始时，beta1 = 0.9， beta2 = 0.999， lr = 1e-3 或 5e-4 是一个不错的初始设置

学习率衰减

在这里插入图片描述

好的学习率是能非常快的收敛，并且慢慢地逼近loss最小值

因此，我们希望学习率在前期很大，后期慢慢变小。所以需要学习率衰减。

一阶优化-》二阶优化

一阶优化求的是当前坡度最大的方向，而二阶优化还会考虑到走了一步后，坡度是否会变得更大。

二阶优化收敛得更快，而且不需要学习率。

二阶泰勒展开，一元的时候即是这种情况

$J(\boldsymbol{\theta}) \approx J\left(\boldsymbol{\theta}_{0}\right)+\left(\boldsymbol{\theta}-\boldsymbol{\theta}_{0}\right)^{\top} \nabla_{\boldsymbol{\theta}} J\left(\boldsymbol{\theta}_{0}\right)+\frac{1}{2}\left(\boldsymbol{\theta}-\boldsymbol{\theta}_{0}\right)^{\top} \boldsymbol{H}\left(\boldsymbol{\theta}-\boldsymbol{\theta}_{0}\right)$