激活函数/损失函数/优化函数梯度下降法

最新推荐文章于 2024-01-03 13:14:26 发布

努力学习的肥鸭

最新推荐文章于 2024-01-03 13:14:26 发布

阅读量125

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_44558479/article/details/132586870

版权

文章目录

- - 激活函数、损失函数、优化函数
  - 梯度下降法

激活函数、损失函数、优化函数

激活函数（Activation Function）是神经网络中的一个非常重要的组件，它定义了神经元（或者称为节点）的输出。每个神经元都会将其输入加权求和后通过激活函数进行非线性转换，使得神经网络能够学习复杂的非线性关系，激活函数引入非线性是因为多个线性层的组合仍然是线性的，而引入非线性激活函数使得神经网络可以学习更加复杂的函数。常见的激活函数包括 Sigmoid、ReLU（Rectified Linear Unit）、Leaky ReLU、tanh 等。

损失函数（Loss Function）是用于衡量模型预测值与真实值之间的差异或者误差的函数。在训练神经网络时，优化算法的目标是最小化损失函数的值，这样网络的输出结果将更接近于实际标签。选择适当的损失函数取决于问题的类型，例如分类问题常用的交叉熵损失函数（Cross-Entropy Loss），回归问题常用的均方误差（Mean Squared Error）损失函数等。

优化函数（Optimization Function）是用来更新神经网络的权重和偏置，以最小化损失函数的值。在训练过程中，优化函数根据当前的权重和偏置，以及损失函数的梯度信息，来更新模型的参数，使得损失函数逐渐减小，模型逐渐收敛到更好的状态。常见的优化函数包括梯度下降（Gradient Descent）、随机梯度下降（Stochastic Gradient Descent，SGD）、Adam 等。

梯度下降法

梯度下降法是原始的优化方法，它的主要目的是通过迭代找到目标函数(也就是损失函数)的最小值。
在梯度下降算法中，每次都会遍历整个训练集，然后会对每个参数求偏导，取最大的点，根据负梯度方向是使函数值下降最快的方向，这个是可以通过泰勒展开求得的，在迭代的每一步根据负梯度的方向更新参数w的值，从而求得最小的损失函数J(w)。当J(w)是凸函数的时候，用梯度下降的方法取得的最小值是全局最优解。但神经网络的损失函数往往是非凸函数，所以梯度下降法往往找到的是局部最优解。

精简版：梯度下降法的目标是最小化损失函数，它通过计算损失函数关于参数的梯度（方向导数）来确定参数更新的方向。在梯度下降法中，参数会沿着梯度的反方向进行更新，以使损失函数尽可能减小。

梯度下降算法如何调优？
实际使用梯度下降法时，各项参数指标不能一步就达到理想状态，对梯度下降法调优主要体现在以下几个方面：

算法迭代步长，也就是学习率α选择。在算法参数初始化时，有时根据经验将步长初始化为0.1。实际取值取决于数据样本。可以从大到小，多取一些值，分别运行算法看迭代效果，如果损失函数在变小，则取值有效。如果取值无效，说明要增大步长。但步长太大，有时会导致迭代速度过快，错过最优解。步长太小，迭代速度慢，算法运行时间长。
参数的初始值选择。初始值不同，获得的最小值也有可能不同，梯度下降有可能得到的是局部最小值。如果损失函数是凸函数，则一定是最优解。由于有局部最优解的风险，需要多次用不同初始值运行算法，选择损失函数最小的初值。
标准化处理。由于样本不同，特征取值范围也不同，导致迭代速度慢。为了减少特征取值的影响，可对特征数据标准化，使新期望为0，新方差为1，可节省算法运行时间。

梯度下降法一定是下降最快的方向吗？
梯度向量指向的方向是当前位置损失函数变化最快的方向，但并不保证是全局最快的下降方向。这是因为梯度下降法是一种局部搜索算法，它只考虑了当前位置的局部信息，而不会全局搜索整个参数空间。一般我们认为牛顿法是下降最快的方向。
为什么牛顿法下降最快？和梯度下降的区别？
梯度下降法使用损失函数关于参数的梯度来更新参数，使损失函数逐渐减小。而牛顿法是一种更高阶的优化算法，除了使用梯度，还考虑了损失函数关于参数的二阶导数，即海森矩阵。海森矩阵可以提供更多关于函数曲率的信息，使得牛顿法能够更精确地确定优化方向。
在二次凸优化问题中，牛顿法可以一步到位地找到全局最优解，因为对于凸函数，局部最小值和全局最小值是相同的。在这种情况下，牛顿法可以认为是梯度下降最快的方向。
然而，在非凸优化问题中，牛顿法的性能可能会受到影响。因为海森矩阵可能包含负特征值，导致在某些方向上函数值并不是下降的，而是上升的，从而使得牛顿法无法保证每次迭代都能得到下降的方向。此外，计算和存储海森矩阵在高维问题中可能会非常昂贵，因此牛顿法并不总是最优选择。
由于牛顿法和梯度下降法各自有优缺点，通常会采用改进的算法来结合二者的优势。例如，拟牛顿法（如BFGS、L-BFGS）是一类常用的优化算法，它使用梯度信息来近似海森矩阵，从而在非凸问题中取得较好的表现，同时避免了直接计算海森矩阵的高代价。这些算法通常被认为是较为高效和稳定的优化方法。

努力学习的肥鸭

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
激活函数/损失函数/优化函数梯度下降法

在训练过程中，优化函数根据当前的权重和偏置，以及损失函数的梯度信息，来更新模型的参数，使得损失函数逐渐减小，模型逐渐收敛到更好的状态。在梯度下降算法中，每次都会遍历整个训练集，然后会对每个参数求偏导，取最大的点，根据负梯度方向是使函数值下降最快的方向，这个是可以通过泰勒展开求得的，在迭代的每一步根据负梯度的方向更新参数w的值，从而求得最小的损失函数J(w)。一般我们认为牛顿法是下降最快的方向。精简版：梯度下降法的目标是最小化损失函数，它通过计算损失函数关于参数的梯度（方向导数）来确定参数更新的方向。
复制链接

扫一扫