梯度下降法(Gradient Descent)求解最优化问题

最新推荐文章于 2024-07-25 12:32:58 发布

期待诗和远方

最新推荐文章于 2024-07-25 12:32:58 发布

阅读量3.4k

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_44142858/article/details/121455770

版权

机器学习专栏收录该内容

4 篇文章 1 订阅

订阅专栏

梯度下降法应用十分广泛，可以用于求解最小值问题。一个机器学习算法的目标就是要找到其损失函数最低点对应的参数，这时就用到了梯度下降法，该方法在之后要介绍的很多算法中要用到，所以单独写一篇文章来介绍。

1.概述

梯度下降法也成为最速下降法，是一种一阶最优化算法。

首先对所有的参数进行初始化；
然后不断更新参数的值，直到目标函数达到最小值。此时模型就被训练完成了。

Require: 学习率 $\alpha$ 和初始参数 $\Theta$
repeat
$\theta _{j} := \theta _{j} - \alpha \cdot \frac{\partial J(\Theta )}{\partial \theta _{j}}$
until 达到收敛条件

注意事项
参数同时更新
正确的计算方式：（假设只有两个参数）
$temp_{0} := \theta _{0} - \alpha \cdot \frac{\partial J(\Theta )}{\partial \theta _{0}}$
$temp_{1} := \theta _{1} - \alpha \cdot \frac{\partial J(\Theta )}{\partial \theta _{1}}$
$\theta _{0} := temp_{0}$
$\theta _{1} := temp_{1}$
错误的计算方式：（假设只有两个参数）
$temp_{0} := \theta _{0} - \alpha \cdot \frac{\partial J(\Theta )}{\partial \theta _{0}}$
$\theta _{0} := temp_{0}$
$temp_{1} := \theta _{1} - \alpha \cdot \frac{\partial J(\Theta )}{\partial \theta _{1}}$
（此时由于 $\theta _{0}$ 已经更新， $temp_{1}$ 的值将受到影响）
$\theta _{1} := temp_{1}$

2.公式中各项的含义

收敛准则

不能证明梯度下降法是收敛的，并且没有明确定义的算法停止准则。

通常使用如下方法对是否收敛进行判断：

当梯度向量的欧几里得范数达到一个充分小的阈值时。
$\left \| \nabla\Theta \right \| = \sqrt{(\nabla\theta_{0})^{2}+(\nabla\theta_{1})^{2}+\cdots +(\nabla\theta_{n})^{2}}$
当迭代的每一个回合的均方误差变化的绝对速率足够小时。

当目标函数是凸函数时，梯度下降法的解是全局最优解。一般情况下，其解不保证是全局最优解。其下降速度也不保证是最快的（不同特征之间特征值相差较大的情况下使用特征缩放，能够加快下降速度）。

导数项含义（作用）

导数为正： $\theta = \theta - \alpha \cdot$ (positive number)， $\theta$ 变小，向代价减小的方向；

导数为负： $\theta = \theta - \alpha \cdot$ (negtive number)， $\theta$ 变大，向代价减小的方向。
由此可见，导数项的作用是使参数向使得损失逐渐减小的方向更新。

学习率(learning rate)的作用

学习率 $\alpha$ 决定梯度下降的速度
学习率的作用
上图引自知乎用户@马同学，图中的 $\eta$ 表示学习率。
由上图可知，学习率太小，导致梯度下降缓慢，而学习率太高，可能越过最低点，导致无法收敛甚至发散，因此，应该选取合适大小的学习率。可以尝试从一系列学习率中（…, 0.001, 0.003, 0.01, 0.03, 0.1, 0.3, …间隔约三倍）选取合适的学习率。
梯度下降速率
在迭代的过程中，应使梯度下降的速率逐渐缓慢，以免越过最低点，而在实际的操作中，不需要逐渐减小 $\alpha$ 值，因为导数值越来越小，梯度下降会自动变缓慢。

3.批量与小批量

批量梯度下降法(Gradient Descent, GD, Batch Gradient Descent)：使用全部训练样本估计梯度进行训练。计算量大，一般不使用批量算法。
小批量梯度下降法(Mini Batch Gradient Descent, MBGD)：使用部分训练样本估计梯度进行训练。实际操作中最常使用。
随机梯度下降法(Stochastic Gradient Descent, SGD)：每次从固定训练集中抽取一个训练样本估计梯度进行训练。

4.总结

以上就是关于梯度下降算法的内容，其具体应用及实现将在以后的算法中展示。

期待诗和远方

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
梯度下降法(Gradient Descent)求解最优化问题

梯度下降法应用十分广泛，可以用于求解最小值问题。一个机器学习算法的目标就是要找到其损失函数最低点对应的参数，这时就用到了梯度下降法，该方法在之后要介绍的很多算法中要用到，所以单独写一篇文章来介绍。文章目录概述算法描述收敛准则导数项含义（作用）学习率(learning rate)的作用小批量梯度下降概述梯度下降法也成为最速下降法，是一种一阶最优化算法。首先对所有的参数进行初始化；然后不断更新参数的值，直到目标函数达到最小值。此时模型就被训练完成了。算法描述Require: 学习率 α\alp
复制链接

扫一扫