Optimizer优化器总结

最新推荐文章于 2024-08-24 09:48:55 发布

米小凡

最新推荐文章于 2024-08-24 09:48:55 发布

阅读量1.1k

点赞数

本文链接：https://blog.csdn.net/xiaomifanhxx/article/details/90606792

版权

在训练深度学习模型的时候，我们要使用优化算法不断迭代模型参数以降低模型损失函数的值。在深度学习问题中，我们通常要预定义一个损失函数(L1,L2等Loss)，在模型训练过程中，这样的损失函数通常被称为目标函数。优化算法的目标损失函数通常是一个基于训练数据集的损失函数，优化目标是为了降低训练误差，但是在降低训练误差以外还要注意过拟合，后面将介绍防止过拟合的相关方法。

在优化过程中，我们经常会遇到局部最小值以及鞍点来干扰我们找到全局最小点。假设一个函数的输入为k维向量，输出为标量，那么它的海森矩阵有k个特征值:在梯度为0时，(1)当k个特征值全为正时，该函数得到局部最小值；(2)当k个特征值全为负值时，该函数得到局部最大值；(3)当k个特征值有正有负时，该函数得到鞍点(可能有的值在局部最小，有的值在局部最大)。

1 梯度下降以及随机梯度下降

1.1 为了让大家清楚梯度下降，下面对一维进行梯度下降解析。

泰勒公式为:，当x=x+u(u为接近于0的值),a=x，则我们可以得到，当u足够小时，我们可以将后面舍去。f'(x)为f(x)在x处的梯度，通过将u替换为，所以我们可以得到，由于恒大于0，因此，因此可以通过来迭代x，从而优化目标函数。若学习率太大，则会造成前面公式不成立，会导致并不是沿着梯度下降的方向运行。

2 随机梯度下降

，f(x)为损失函数(例如x1**2+x2**2(x为一个向量))，⽬标函数在x处的梯度计算为，使用梯度下降的话，自变量的迭代随着数目的增加次数增大，因此训练集数目很大的时候会导致计算开销比较高，因此为了减少迭代的开销，提出了随机梯度下降，但是随机梯度下降会造成计算资源的浪费。因此，提出了批量梯度下降。

3 小批量随机梯度下降

但是基于suiji随机采样得到的方差在迭代过程中无法减少，因此在实际中，使用的是自我衰减的学习率，如

当批量较大时，每个小批量中可能含有更多的冗余信息，因此为了得到更好地解，批量较大需要更多的数据集。

4 动量法(使用了加权移动平均)

在每次迭代中，梯度下降根据自变量当前位置，沿着当前位置的梯度更新变量，然而迭代方向仅仅取决于自变量当前位置，可能带来一些问题：(1)在目标函数确定下，同一位置上，目标函数在竖直方向或者水平方向的斜率不在一个量级上，因此给定一个确定的准确率会使得震荡，甚至越过目标函数的最优解，若不想避免，使用小的学习率会使得收敛速度变慢。因此提出了动量法，来通过结合时间序列来不断地优化自变量。