常用优化方法总结

最新推荐文章于 2023-07-18 17:20:26 发布

zizi7

最新推荐文章于 2023-07-18 17:20:26 发布

阅读量488

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/zizi7/article/details/115875436

版权

44 篇文章 0 订阅

订阅专栏

梯度下降及其变体

包含梯度下降、随机梯度下降、小批量梯度下降

梯度下降GD
$w_{k+1}=w_k-\gamma_k\nabla f(w_k) \tag{1}$
每次更新参数需要计算整个数据集
优点：对凸问题可以保证取得全局最小，非凸问题局部极小
缺点：计算量大，可能造成内存不足，无法在线更新模型
随机梯度下降SGD
$w_{k+1}=w_k-\gamma_k\nabla f_i(w_k) \tag{2}$
每次随机选择1个训练样本计算梯度
优点：计算速度快，可用于在线模型更新；由于随机单个样本带来的噪声可以避免陷入浅的局部极小值，找到更好的最小值（退火），能获得比GD更好的效果
缺点：噪声带来的收敛过程波动较大
小批量梯度下降SGD
$w_{k+1}=w_k-\gamma_k\frac{1}{B_i}\sum_{j\in B_i}\nabla f_j(w_k) \tag{3}$
每次随机选择一组训练样本计算梯度
优点：是随机梯度的改进，可以减少更新中的噪声

$\begin{cases}p_{k+1}=\beta_kp_k+\nabla f_i(w_k)\\w_{k+1}=w_k-\gamma_kp_{k+1}\end{cases} \tag{4}$

$\begin{cases}p_{k+1}=\beta_kp_k+\nabla f_i(w_k-\beta_kp_k)\\w_{k+1}=w_k-\gamma_kp_{k+1}\end{cases} \tag{5}$

$\begin{cases}p_{k+1}=\frac{\gamma}{\sqrt{\sum_{j=1}^{k+1}{\nabla f_i^2(w_j)}}}\nabla f_i(w_k)\\w_{k+1}=w_k-p_{k+1}\end{cases} \tag{6}$

RMSprop也是针对Adagrad学习率单调递减问题的改进
RMSprop是Adadelta的一个特例，但仍需要一个全局学习率
RMSprop适合处理非平稳目标，对RNN效果较好
$\begin{cases}p_{k+1}=\frac{\gamma}{RMS[\nabla f_i(w_k)]}\nabla f_i(w_k)\\w_{k+1}=w_k-p_{k+1}\end{cases} \tag{8}$
与Adadelta一样， $RMS[\nabla f_i(w_k)]$ 是梯度的均方根误差，RMSprop建议 $\lambda=0.9$ ， $\gamma=0.001$

Adam（自适应矩估计）本质上是带了动量项的RMSprop
Adam同时估计了梯度的动量（一阶矩估计）和方差的动量（二阶矩估计）
Adam使用了偏置校正，对每次迭代的学习率有动态约束，参数比较平稳
$w_{k+1}=w_k-\frac{\gamma}{\sqrt{\hat{v}_k}+\epsilon}\hat{m}_k\tag{9}$
其中
$\begin{cases}m_k=\mu*m_{k-1}+(1-\mu)\nabla f_i(w_k)\\\hat{m}_k=\frac{m_k}{1-\mu^k}\end{cases}$
$\begin{cases}v_k=\nu*v_{k-1}+(1-\nu)\nabla f_i^2(w_k)\\\hat{v}_k=\frac{v_k}{1-\nu^k}\end{cases}$
一般取 $\mu=0.9$ ， $\nu=0.999$ ，初始化 $m_k=v_k=0$
以上的 $\hat{m}_k$ 和 $\hat{v}_k$ 分别是对 $m_k$ 和 $v_k$ 的校正，因为更新过程尤其是初始阶段 $m_k$ 和 $v_k$ 倾向于0

[1] https://www.cnblogs.com/hejunlin1992/p/13027288.html
[2] https://zhuanlan.zhihu.com/p/64113429
[3] https://zhuanlan.zhihu.com/p/22252270

关注