week1第四章---梯度下降---吴恩达机器学习笔记

天微亮。

已于 2022-08-23 16:12:17 修改

阅读量290

点赞数

分类专栏：吴恩达机器学习文章标签：机器学习人工智能算法

于 2022-08-22 20:38:10 首次发布

本文链接：https://blog.csdn.net/weixin_43811239/article/details/126466877

版权

吴恩达机器学习专栏收录该内容

14 篇文章 14 订阅

订阅专栏

week1第四章---梯度下降---吴恩达机器学习笔记

4-1 梯度下降
4-2 梯度下降的实现
4-3 理解梯度下降
4-4 学习率
4-5 用于线性回归的梯度下降
4-6 运行梯度下降

4-1 梯度下降

上节中， $J (w, b)$ 是求线性回归的代价函数，但事实证明 梯度下降(gredient decent) 是一种可以用来最小化任何函数的算法，而不仅仅是线性回归的代价函数。
比如要找到代价函数 $J(w_1,w_2,...,w_n,b)$ 的最小值，梯度下降要做的就是，从对 $w$ 和 $b$ 的初步猜测开始。在线性回归中，参数的初步猜测并不重要，所以常见的选择是将她们都置为0。而在梯度下降中，我们需要继续多次更改 $w$ 和 $b$ 的值以降低 $w$ 和 $b$ 的代价函数 $J$ ，直到 $J$ 达到或接近最小值。
需要注意有些代价函数的图像不是碗状或吊床，并且可能不止一个可能的最小值。
来看一个代价函数的曲面图，这并不是平方误差代价函数，而是一种在训练神经网络模型时得到的代价函数。假设它是一个稍微多山的户外公园。
想象一下你正站立在山的这一点上，站立在你想象的公园这座红色山上，在梯度下降算法中，我们要做的就是旋转360度，看看我们的周围，并问自己要在某个方向上，用小碎步尽快下山。这些小碎步需要朝什么方向？如果我们站在山坡上的这一点，你看一下周围，你会发现最佳的下山方向，你再看看周围，然后再一次想想，我应该从什么方向迈着小碎步下山？然后你按照自己的判断又迈出一步，重复上面的步骤，从这个新的点，你环顾四周，并决定从什么方向将会最快下山，然后又迈进了一小步，并依此类推，直到你接近局部最低点的位置。
梯度下降有一个有趣的特性，当选择不同的初起点下山时，可能会达到不同的终点。在第一个谷底没有到达第二个谷底的道路，第二个谷底也没有到达第一个谷底的道路。这两个谷底都成为局部最小值。
代价函数

4-2 梯度下降的实现

梯度下降算法如下： $\alpha \frac{\partial J(w,b)}{\partial w}$ $\alpha \frac{\partial J(w,b)}{\partial b}$ 其中 $\alpha$ 为学习率(learning rate)，即下山的步长。在下山的例子中，我们通过小碎步的方式走到谷底，而在梯度下降中，我们不断重复以上两个更新步骤，直到算法收敛，即当达到局部最小的点时，参数 $w$ 和 $b$ 不再发生明显的变化。
我们要同时更新两个参数 $w$ 和 $b$ ，方法如下：

4-3 理解梯度下降

本节中我们通过理解算法中的两个导数（derivative），从直觉上更好的理解梯度下降。

下图将代价函数简化为1个参数 $w$ ，并让我们理解梯度下降正在做什么以及参数如何变化。
直观理解

4-4 学习率

学习率 $\alpha$ 的选择，将对我们实现梯度下降的效率产生巨大影响。
若 $\alpha$ 特别小，比如 $\alpha = 0.0000001$ ，梯度下降的每一步都是微不足道的，收敛速度特别慢。
若 $\alpha$ 过大，则 $w$ 可能会过头，甚至离终点越来越远。

若此时 $w$ 已经使 $J$ 处于局部最小值，下一步梯度下降最怎么做呢？

可以看见此时导数=0，下一步中 $w = w - 0$ ， $w$ 值没有发生变化，即保持在局部最小值，这也同时解释了即使在固定的学习率 $\alpha$ 下，梯度下降也可以达到局部最小值。
再给出一个固定 $\alpha$ 下达到局部最小值的例子：
越接近最小值，减项越小， $w$ 变化的距离越小，最终总会达到局部最小值。
在这里插入图片描述