优化神经网络

最新推荐文章于 2023-06-15 10:42:30 发布

twilight_cc

最新推荐文章于 2023-06-15 10:42:30 发布

阅读量140

点赞数

分类专栏：深度学习文章标签：优化方法

本文链接：https://blog.csdn.net/weixin_43841579/article/details/102559803

版权

深度学习专栏收录该内容

6 篇文章 1 订阅

订阅专栏

mini-batch

在应用梯度下降训练神经网络时，常规的batch训练是一次遍历整个数据集，做一次梯度更新，那么样本量较大的情况下，网络迭代的速度就较慢，mini-batch,则是在每个epoch中，一次遍历mini-batch的样本量，做 $b a t c h - s i z e / m i n i - b a t c h - s i z e$ 次梯度更新，这样可以加快网络参数更新的速度

当mini-batch-size = m时，叫做batch gradient descent(BGD)，大样本情况下，单次迭代训练时间过长
当mini-batch-size = 1时，叫做stochastic gradient descent(SGD)，虽然可以通过减小学习率降噪，但是失去了向量化的优势，也会使计算减慢

采用mini-batch 训练的一个问题是会产生梯度下降过程中的波动，如果想要使用一个较大的学习率的话，就要想办法减少梯度更新的波动，也就是后面介绍的以指数加权移动平均理论为基础的网络训练优化方法。

指数加权移动平均

指数加权平均是通过设置不同的权值参数来获得不同的移动平均值，以此作为新数据进行预测
当前时刻的EWMA只需要前一时刻的EWMA加上当前时刻的值，而不需要整个历史序列的数据来计算平均数，这样可以节省存储空间并简化计算

指数加权的由来：离当前时刻越远的值，其权值呈指数衰减,以 $1 / e$ 作为截止近似，即在权值为 $\beta$ 时，当前时刻往前推n时刻，权重衰减为原来的1/3,则以近n时刻数据的平均值作为该时刻的加权平均数
$v_t = \beta v_{t-1}+(1-\beta) \theta_t =\beta (\beta v_{t-2}+(1-\beta) \theta_{t-1})+(1-\beta) \theta_t=(1-\beta)[\theta_t+\beta \theta_{t-1}+\beta^2 \theta_{t-2}+....]+\beta^tv_0$

偏差修正
在计算时，令 $v_0=0$ ,则 $v_1 = (1-\beta) \theta_1$ , $v_2 = \beta(1-\beta)\theta_1+(1-\beta)\theta_2$
当 $\beta$ 值设置的比较大时，就会出现计算后的EWMA值头部数据较小，即产生了偏差修正的问题：用 $\frac{v_t}{1-\beta^t }\approx v_t$

Momentum 动量梯度下降法

用 $d w, d b$ 的EWMA值代替 $d w, d b$ ，实现动量加速的效果
$v_{dw} = \beta v_{dw}+(1-\beta)dw$
$v_{db} = \beta v_{db}+(1-\beta)db$
$w-\alpha v_{dw}$
$b-\alpha v_{db}$
超参数 $\alpha,\beta=0.9$

RMSprop(root mean square prop)

做 $dw^2,db^2$ 的加权移动平均，波动越大，所求得的EWMA值越大，在梯度更新时，除以该值，可以减小波动
$s_{dw} = \beta s_{dw}+(1-\beta) dw^2$
$s_{db} = \beta s_{db}+(1-\beta) db^2$
$w-\alpha \frac{dw}{\sqrt s_{dw}+\epsilon}$
$b-\alpha \frac{db}{\sqrt s_{db}+\epsilon}$
超参数 $\alpha,\beta=0.999,\epsilon=10^{-8}$

Adam(adaptive momentum estimation)

结合了momentum与rmsprop优化方法，适用于大多数网络的优化

初始化 $v_{dw}=0,v_{db}=0,s_{dw}=0,s_{db}=0$ ,在迭代时，首先计算梯度 $d w, d b$

然后推算
$v_{dw} = \beta_1 v_{dw}+(1-\beta_1)dw$
$v_{db} = \beta_1 v_{db}+(1-\beta_1)db$

$s_{dw} = \beta_2 s_{dw}+(1-\beta_2) dw^2$
$s_{db} = \beta_2 s_{db}+(1-\beta_2) db^2$
梯度更新
$w-\alpha \frac{v_{dw}}{\sqrt s_{dw}+\epsilon}$
$b-\alpha \frac{v_{db}}{\sqrt s_{db}+\epsilon}$