多元梯度下降法

最新推荐文章于 2023-12-31 01:48:51 发布

周八营业的代码人

最新推荐文章于 2023-12-31 01:48:51 发布

阅读量511

点赞数 1

分类专栏：吴恩达机器学习笔记文章标签：机器学习深度学习线性回归

本文链接：https://blog.csdn.net/weixin_44320429/article/details/122458805

版权

吴恩达机器学习笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

多元梯度下降法

多特征值

改写后的假设函数形式： $h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+...+\theta_nx_n$ ，其中可以认为 $x_0$ 的值为1，这意味着对于第 $i$ 个样本都有一个向量 $x^{(i)}$ ，并且 $x^{(i)}_0=1$ 。即定义了第0个特征向量，其取值总是1。

所以现在我们的特征向量 $X$ 是一个从0开始标记的n+1维向量；同时参数 $\theta$ 也构成一个n+1维的向量，此时假设函数可以写成矩阵相乘的形式： $h_\theta(x)=\theta^TX$

使用梯度下降法来处理多元线性回归

我们不把代价函数 $J$ 看做是这n+1个数的函数，因此将其改写为更通用的形式 $J(\theta)$ ，表示参数 $\theta$ 这个向量的函数。若以预测房屋价格为例，则 $x^i$ 表示一个特征值， $h_\theta(x^i)$ 表示预测的房屋价格， $y^i$ 表示房屋实际价格。

在一元线性回归中，由于只有一个特征值，表示为 $x^i$ ，现在使用 $x^i_j$ 来表示一个特征值， $i$ 表示第几个样本， $j$ 表示对应 $\theta_j$ 。对 $J(\theta)$ 求偏导，可以得到 $\theta_j$ 的取值。

特征缩放

一个多特征值的机器学习问题，如果能确保不同特征的取值都处在一个相近的范围内，如（-1,1）这样一个区间，这样梯度下降法就能更快地收敛。

如果你的房屋面积范围是0-2000，房间数范围是0-5，两个数据相差悬殊，此时得到的代价函数的图像是左图一样的瘦高椭圆，由于梯度下降参数每次都朝着垂直等高线的方向更新，因此这种情况下的下降路径像是在反复横跳会很复杂，收敛速度更慢。

对两个数据进行右图所示的特征缩放后，将两个数据的范围都控制在0-1内，此时代价函数的图像偏移变得没那个严重，应该是接近一个圆，那么此时再朝着垂直等高线的方向更新，会更快找到圆心（此处为代价函数的最小值）。

均值归一化

其中 $\mu_1$ 表示训练集中特征值 $x_1$ 的平均值， $s_1$ 表示该特征值的范围，即最大值-最小值。这种方法处理后可以让你的特征值大致处于一个相近的范围内。

特征缩放其实并不需要太精确，只是为了让梯度下降，能够运行的更快一点，所需的迭代次数更少而已。

如何选择学习率 $\alpha$ ？

在梯度下降算法运行时，绘出代价函数 $J(\theta)$ 的值，左图中x轴表示梯度下降算法的迭代次数，随着梯度下降算法的运行，会得到一条代价函数的变化曲线，每一步迭代之后 $J(\theta)$ 都应该下降。这条曲线的作用在于他可以告诉你在多少次迭代后，梯度下降算法差不多已经收敛了。

此外，对于特定的问题，梯度下降算法所需的迭代次数可能会相差很大。实际上我们很难提前预知梯度下降算法需要迭代多少次才能收敛，所以我们可以借助这一曲线来判断梯度下降算法是否已经收敛。

另外，也可以进行一些自动的收敛测试来判断算法是否收敛。例如，当某次迭代后 $J(\theta)$ 的值小于一个很小的值 $\varepsilon$ ，这个测试就判断函数已经收敛。但是通常要选择一个合适的阈值 $\varepsilon$ 是相当困难的，因此为了检查梯度下降算法是否收敛，我们实际上更倾向于通过看左边的曲线图来判断。

这种图还能提前告诉我们算法是否正常工作。比如随着迭代次数增加，代价函数 $J(\theta)$ 的值反而不断增大，这就说明梯度下降算法没有正常工作。 $J(\theta)$ 的值上升，通常是因为 $\alpha$ 的值太大，导致梯度下降算法更新的步长过长，直接跳过了最小值，这意味着我们应该使用较小的学习率 $\alpha$ 。