机器学习笔记（2）— 梯度下降法

最新推荐文章于 2023-03-07 18:19:23 发布

开门儿大弟子

最新推荐文章于 2023-03-07 18:19:23 发布

阅读量747

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_45718019/article/details/106161233

版权

机器学习专栏收录该内容

16 篇文章 5 订阅

订阅专栏

本文主要介绍机器学习中的梯度下降法以及梯度下降与线性回归的结合部分。

1.梯度下降法的思想

根据上文介绍，我们知道了代价函数为：
在这里插入图片描述
我们需要求代价函数的最小值，即：

梯度下降法的思想是：
（1）首先给定 θ0, θ1（这两值具体取多少不重要，通常是将 θ0, θ1均设置为0）
（2）接下来不停改变这两个值，从而使J( θ0, θ1)取得最小值。

2.梯度下降法的通俗解释

在这里插入图片描述

图1

如图1所示为代价函数与 θ0, θ1 两个参数的三维模型。纵轴代表代价函数的值，平面代表 θ0, θ1组成的平面。

图2
在这里插入图片描述
图3

以下山作类比，当你从图2中的起点（最高点，即红色区域的点）开始下山，你在起点寻找最快的下山途径，确定下山途径后，你迈出第一步。之后再第一步的位置再次寻找最快的下山途径，迈出第二步，之后第三步等等，一直循环，直到下山。而图3，是起点在其他位置的下山途径，这两种途径都能使你下山，但是从图上看，两种不同的你会到达J(θ_0,θ_1 )的局部最小值，即局部最优解。

3.梯度下降法的数学理论

梯度下降法的数学公式为：
在这里插入图片描述
其中：=表示赋值运算，α表示学习率，在上文的通俗解释中，它代表每一步迈出多大的步子，若该值大，则代表用大步子下山。

使用梯度下降法，我们要一直更新两个参数，即代价函数中的 θ0, θ1：
在这里插入图片描述
其计算过程如下：

如图所示展示了梯度下降法的正确和错误计算过程，梯度下降法强调两个参数需要同时更新。

4.梯度下降法的数形结合理解

本部分，为了方便画图和理解，在这部分代价函数中我只使用了一个θ1，其图像如下：
在这里插入图片描述
如图所示：其中b点代表J取得最小值。由上文我们可知梯度下降法的数学公式为：

由于本部分，我们只是用一个参数，因此该函数可以更改为：

首先我们分析a点：
当J( θ1)在a点时，倒数部分的求导结果为即为a点的斜率，该值为负。使用梯度下降法更新 θ1：
在这里插入图片描述
此时更新 θ1，即相当于增大 θ1，通过不停的更新，使 θ1到达b点从而获得最小的代价函数。当 θ1到达b点时，倒数部分为0， θ1不再更新。在此过程中，参数α控制着每次增大的程度，若参数α较大，则可以在较快时间内到达b点，若参数α较小，则会在较慢时间内到达b点。但是斜率也会控制每次增大的程度，当距离最小值较远时，斜率较大；距离最小值较小时，斜率较小。所以说，斜率和参数α共同控制着增大的程度。但是如果参数过大或者过小，极有可能越过b点，使代价函数永远到不了b点。

之后我们来分析c点：
当J( θ1 )在c点时，倒数部分的求导结果为即为c点的斜率，该值为正。使用梯度下降法更新 θ1：
在这里插入图片描述
此时更新 θ1，即相当于减小 θ1，通过不停的更新，使 θ1到达b点从而获得最小的代价函数。当 θ1到达b点时，倒数部分为， θ1不再更新。在此过程中，参数α控制着每次减小的程度，若参数α较大，则可以在较快时间内到达b点，若参数α较小，则会在较慢时间内到达b点。但是斜率也会控制每次减小的程度，当距离最小值较远时，斜率较大；距离最小值较小时，斜率较小。所以说，斜率和参数α共同控制着减小的程度。但是如果参数过大或者过小，极有可能越过b点，使代价函数永远到不了b点。

5.梯度下降法局部最优解的数形结合理解

在这里插入图片描述
如图所示，d点为部最优解，根据梯度下降法，d点的导数为0.因此无论如何，使用梯度下降法都会使代价函数达到局部最优解。
然而在e点也会使导数0，在最高点会使系统不稳定（对于e点的理解较少，欢迎大家指教）。

6.线性回归中的梯度下降：

由上文可知，线性回归目标函数为：
在这里插入图片描述
代价函数为：

我们需要使用梯度下降法：

将目标函数的代价函数代入梯度下降法中，得到：

在这里插入图片描述
在求得最小的代价函数J( θ0, θ1 )。在此过程中，最重要的是偏导数项，分别对两个参数求偏导，结果如下：

把 θ0, θ1的求导结果代入梯度下降法中：

以上的梯度下降法又叫“Batch”梯度下降算法，从计算过程中，我们可以知道，每次求导都会计算整个数据集的平方和。有的梯度下降法并没有计算整个数据集的平方和，仅仅计算数据集子集的平方和。

7.学习率讲解

前文讲过，学习率太大的话，可能会使代价函数达不到最优解。因此学习率的选择很重要，若选择过大则代价函数可能会出现如下情况。
在这里插入图片描述
以上情况均是由于学习率选择过大引起的（数学家已经证明了只要学习率足够小，每次迭代之后代价函数都会下降）。
总结:如果学习率太小，下降会很慢。迭代次数会增减加；如果学习率太大，代价函数可能不会降低，甚至会出现上升的情况。

开门儿大弟子

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
机器学习笔记（2）— 梯度下降法

本文主要介绍机器学习中的梯度下降法以及梯度下降与线性回归的结合部分。1.梯度下降法的思想根据上文介绍，我们知道了代价函数为：我们需要求代价函数的最小值，即：梯度下降法的思想是：（1）首先给定 θ0, θ1（这两值具体取多少不重要，通常是将 θ0, θ1均设置为0）（2）接下来不停改变这两个值，从而使J( θ0, θ1)取得最小值。2.梯度下降法的通俗解释图1如图1所示为代价函数与 θ0, θ1 两个参数的三维模型。纵轴代表代价函数的值，平面代表 θ0, θ1组成的平面。图2图
复制链接

扫一扫

专栏目录