Gradient descent 梯度下降

最新推荐文章于 2024-05-21 23:36:04 发布

周八营业的代码人

最新推荐文章于 2024-05-21 23:36:04 发布

阅读量249

点赞数

分类专栏：吴恩达机器学习笔记文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/weixin_44320429/article/details/122433523

版权

吴恩达机器学习笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Gradient descent 梯度下降

可以尝试使用梯度下降法来最小化任何代价函数 $J$ ，不仅仅是线性回归中的代价函数。

基本思想：一般给定 $\theta_0$ 和 $\theta_1$ 的初始值均为0，持续改变二者的值，直到找到代价函数的最小值。

梯度下降的运行过程：

梯度下降的特点：和初始开始的位置有关，即和 $\theta_0$ 和 $\theta_1$ 的初始值有关。并且不同的初始值可能得到完全不同的局部最优解。

数学原理
梯度下降算法：反复执行{}内的步骤，直到收敛。对于更新方程，需要同时更新 $\theta_0$ 和 $\theta_1$

其中“:=”表示赋值，“=”表示真假判定； $\alpha$ 表示学习率或学习速率，用来控制梯度下降时，“迈出步子的大小”，即以多大的幅度更新参数 $\theta_j$ ， $\alpha$ 的值越大，梯度下降的越迅速。

将代价函数简化为只有一个参数 $\theta_1$ ，试着去理解梯度下降法在这个函数上起什么作用。

4430_2

探究梯度下降算法的更新规则：

假设以下是关于实数 $\theta_1$ 的函数 $J(\theta_1)$ ，现在从出发开始梯度下降，梯度下降要做的就是不断更新，即 $\theta_1=\theta_1- \alpha\frac{\mathrm{d} J\left ( \theta_1 \right )}{\mathrm{d} \theta_1}$ ，（这里使用 $\frac{\mathrm{d} }{\mathrm{d\theta}}$ 导数符号，是因为函数 $J(\theta_1)$ 只有一个变量)。

其中，当 $\frac{\mathrm{d} J\left ( \theta_1 \right )}{\mathrm{d} \theta_1}$ 的值大于0时，更新后的 $\theta_1$ 减小，越往极小值点靠近，同理，当 $\frac{\mathrm{d} J\left ( \theta_1 \right )}{\mathrm{d} \theta_1}$ 的值小于0时，更新后的 $\theta_1$ 增大，同样是靠近极小值点。