优化方法小结

最新推荐文章于 2024-03-20 06:55:31 发布

于建民

最新推荐文章于 2024-03-20 06:55:31 发布

阅读量545

点赞数

分类专栏：技术博客文章标签： optimize Gradient 优化算法 Adam 深度学习

本文链接：https://blog.csdn.net/yujianmin1990/article/details/78565299

版权

技术博客专栏收录该内容

79 篇文章

订阅专栏

将各类型优化方法总结下方便查阅，大体分为：一阶梯度依赖的，二阶梯度依赖的；不依赖梯度的优化方法。

1）一阶梯度依赖的优化方法

1.1）GD：Gradient Descent

这个很好理解，根据梯度 $\triangledown_w f(w)$ 来指导下一步优化方向。
梯度来源于 $f$ 沿着某方向 $l=(e_0,e_1,...,e_i)$ 的方向导数： $\frac{\partial f}{\partial w} |_l=\langle \frac{\partial f}{\partial w}, l \rangle$ .
其中变化（增长）最快的方向及导数值称为梯度： $\triangledown_w f(w)=(\frac{\partial f}{\partial w_0}, \frac{\partial f}{\partial w_1}, .., \frac{\partial f}{\partial w_i})$

w = w - η ▽ w f (w)

$w=w- \eta \triangledown_w f(w)$

1.2）Moment GD

[带有动量的GD](On the momentum term in gradient descent learning algorithms)，其基本思路是，设想如果当前的梯度方向与历史累积的方向相同，是不是可以加大这个方向上的步幅，以加快收敛速度；若震荡的梯度，则是不是可以互相抵消，避免多走弯路，以加快收敛速度。[同向累计，反向抵消]如下， $\gamma=0.9$

{v t = γ v t - 1 + η ▽ w w = w - v t

$\left\{\begin{matrix} v_t=\gamma v_{t-1} + \eta \triangledown_w & \\ w=w - v_t & \end{matrix}\right.$
另外一种更新方式如下（需要见证下，来自安德鲁的课程）：

{v t = γ v t - 1 + (1 - γ) ▽ w w = w - η v t

$\left\{ \begin{matrix} v_t =\gamma v_{t-1} +(1-\gamma)\triangledown_w \\ w=w - \eta v_t \end{matrix}\right.$
[ bias correct ]
假设一个时间变量

vt v t $v_t$ ，如果

vt=γvt−1+(1−γ)▽tw v t = γ v t − 1 + ( 1 − γ ) ▽ w t $v_t= \gamma v_{t-1} +(1-\gamma) \triangledown_w^t$

→E[vt]=E[(1−γ)∑tj=1γt−j▽jw] → E [ v t ] = E [ ( 1 − γ ) ∑ j = 1 t γ t − j ▽ w j ] $\rightarrow E[v_t]=E[(1-\gamma)\sum_{j=1}^t \gamma^{t-j} \triangledown_w^j]$

→E[vt]=E[▽tw](1−γ)∑tj=1γt−j+ϵ → E [ v t ] = E [ ▽ w t ] ( 1 − γ ) ∑ j = 1 t γ t − j + ϵ $\rightarrow E[v_t] = E[\triangledown_w^t](1-\gamma)\sum_{j=1}^t \gamma^{t-j}+\epsilon$

→E[vt]=E[▽tw](1−γt)+ϵ → E [ v t ] = E [ ▽ w t ] ( 1 − γ t ) + ϵ $\rightarrow E[v_t] = E[\triangledown_w^t](1-\gamma^t) +\epsilon$
得到

vt v t $v_t$ 的期望值是

▽tw ▽ w t $\triangledown_w^t$ 的期望的指数衰减值。
若修正

vt=vt1−γt→E[vt]∝E[▽tw]+ϵ v t = v t 1 − γ t → E [ v t ] ∝ E [ ▽ w t ] + ϵ $v_t=\frac{v_t}{1-\gamma^t} \rightarrow E[v_t] \propto E[\triangledown_w^t] + \epsilon$

1.3) NAG

NAG:Nesterov accelerated gradient [A method for unconstrained convex minimization problem with the rate of convergence o(1/k2)]
基本想法是，提前预知下一步的位置是上坡，则减小步幅，提前预支下一步的位置是下坡，则增大步幅。

{v t = γ v t - 1 + η ▽ w f (w - γ v t - 1) w = w - v t

$\left \{ \begin{matrix} v_t = \gamma v_{t-1} + \eta \triangledown_w f(w-\gamma v_{t-1}) \\ w= w- v_t \end{matrix} \right.$

1.4) RMSprop

RMSprop GD :root mean square
是Hitton提出的，基本思路是Bias-correct，不过是利用 $E[v]$ 与 $\triangledown_w^2$ 的正相关关系，找到梯度的期望来指导当前的参数更新。
假设 $v_t=\gamma v_{t-1} + (1-\gamma) \triangledown_{w}^2$
则 $\rightarrow E[v] = E[\triangledown_w^2](1-\gamma) + \epsilon$

{v t = γ v t - 1 + (1 - γ) ▽ 2 w w = w - η ▽ w v t \sqrt

$\left \{ \begin{matrix} v_t = \gamma v_{t-1} +(1-\gamma) \triangledown_w^2 \\ w=w - \eta \frac{\triangledown_w}{\sqrt{v_t}} \end{matrix} \right.$

1.5) Adam

Adam GD：adaptive moment estimation [2015-Adam, A Method for Stochastic Optimization]
结合了moment和RMSP的两者优点，如下：

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ v t = γ 1 v t - 1 + (1 - γ 1) ▽ w s t = γ 2 s t - 1 + (1 - γ 2) ▽ 2 w w = w - η v t s t \sqrt + ϵ \to v t = v t 1 - γ 1 \to s t = s t 1 - γ 2 γ 1 = 0.9; γ 2 = 0.999

$\left \{ \begin{matrix} v_t = \gamma_1 v_{t-1} +(1-\gamma_1)\triangledown_w & \rightarrow v_t=\frac{v_t}{1-\gamma_1} \\ s_t= \gamma_2 s_{t-1} +(1-\gamma_2)\triangledown_w^2 & \rightarrow s_t=\frac{s_t}{1-\gamma_2} \\ w=w- \eta \frac{v_t}{\sqrt{s_t}+\epsilon} &\gamma_1=0.9;\gamma_2=0.999 \end{matrix} \right.$
并且在online-learning时，Adam也是收敛的。

1.6) AdaGrad

AdaGrad Descent [ Adaptive Subgradient Methods for Online Learning
and Stochastic Optimization]
基本思路：自适应学习率，能够对频繁更新的参数采取更小的步幅；对更新不频繁的参数采取更大的步幅。非常适合稀疏数据的学习。其中 $G_i$ 表示到update当时为止，所有已计算的梯度的平方和。

w i = w i - η G i + ϵ - - - - - \sqrt ▽ w i

$w_i=w_i - \frac{\eta}{\sqrt{G_i + \epsilon}}\triangledown_{w_i}$

1.7) AdaDelt

AdaDelt GD [ An Adaptive Learning Rate Method]
AdaGrad存在问题：平方和的累和会一直增加下去，导致分母部分无限大，梯度被削弱至非常小，参数不再更新。而AdaDelt则刚好为解决这问题而诞生，借助指数衰减平均 $E[\triangledown_w^2]_t=\gamma E[\triangledown_w^2]_{t-1} +(1-\gamma)\triangledown_{w_t}^2$ 的思路来避免所有历史梯度^2的平均加和。
首先参数的增量值 $\triangle x_{t,i}$ 用梯度的期望来表示为： $\triangle x_{t,i} = - \frac{\eta}{\sqrt{E[\triangledown_{w_i}^2]_t+\epsilon}}\triangledown_{w_{t,i}}$
然后增量值的期望值也用指数衰减平均表示 $E[\triangle_x^2]_t=\gamma E[\triangle_x^2]_{t-1}+(1-\gamma)\triangle_{x_t}^2$
用梯度的期望，增量值的期望估计(当次的不知道，用前一次的来估计)，以及当前梯度来指导学习的方向。

\to w t, i = w t - 1, i - E [ △ 2 x i ] t - 1 + ϵ - - - - - - - - - - - \sqrt E [ ▽ 2 w i ] t + ϵ - - - - - - - - - \sqrt ▽ w t, i

$\rightarrow w_{t,i} = w_{t-1,i} - \frac{\sqrt{E[\triangle_{x_i}^2]_{t-1}+\epsilon}}{\sqrt{E[\triangledown_{w_i}^2]_t+\epsilon}}\triangledown_{w_{t,i}}$
作者在原文里解释，是用一阶导数去估计二阶导数Hassion矩阵。

补充阅读

AdaMax
Nadam:Nesterov Momentum into Adam
DFP
DFBS
AdamW

估计函数的二阶导数，其实好多方法都是对二阶导数的估计得来的，比如DFP/DFBS/AdaDelt。

2）二阶梯度依赖的优化方法

各种适应性，在有道云笔记上有部分内容。
牛顿下降法
求解 $\underset{x}{argmin} f(x)$ ，等价于找到 $f'(x)=0$ 对应的 $x^*$ 值。
要想找到函数的零值点，可以根据其泰勒展开 $f(x)=f(x_k)+(x-x_k)f'(x_k)$ 作近似逼近，另f=0，得到 $x_{k+1}=x_k - \frac{f(x_k)}{f'(x_k)}$ ，由于导数是描述增幅的，那么对应的 $x_{k+1}$ 就相应的比 $x_k$ 要更靠近零值点，如下图。

那么回到等价问题上，找到函数

f′(x) f ′ ( x ) $f'(x)$ 的零值点，我们对

f′(x) f ′ ( x ) $f'(x)$ 在某处

xk x k $x_k$ 做一阶展开

f′(x)=f′(xk)+(x−xk)f′′(xk) f ′ ( x ) = f ′ ( x k ) + ( x − x k ) f ″ ( x k ) $f’(x)=f'(x_k) + (x-x_k)f''(x_k)$ ，于是得到迭代关系

xk+1=xk−f′(xk)f′′(xk) x k + 1 = x k − f ′ ( x k ) f ″ ( x k ) $x_{k+1}=x_k - \frac{f'(x_k)}{f''(x_k)}$ 可以不断逼近

f′(x) f ′ ( x ) $f'(x)$ 的零值点。

3）不依赖梯度的优化方法

3.1）Gradient Boost

Gradient Boost的梯度方向是由最终label与当前的预测label之间的差距给出的，详细见GB

3.2）Constractive Divergence

对比散度类方法，主要是根据条件随机场的收敛性，可以根据下次采样比当前状态更靠近稳定最优解，来给出优化方向，详细见RBM。

梯度相关的trick

1） ReLU等激活函数的各种类型。
2） Gradient Clip，常用在RNN类方法中。
3） Batch Normalize，对所有网络都使用。（Group Normalization, Switchable Normalization等改进的方法）
4） 正则化方法及各种变形改进。（DIN里面有个根据数据对梯度作约束的正则，非常有意思）

未完待续
后续会补充能查到的资料，并且会讲解如何在TF里面实现自定义的Gradient Optimize Operation。