Stanford机器学习（Andrew Ng）Lecture2（一）

最新推荐文章于 2024-09-23 08:46:32 发布

xmfthu

最新推荐文章于 2024-09-23 08:46:32 发布

阅读量1.4k

点赞数

分类专栏：机器学习文章标签：机器学习斯坦福大学 Ng

本文链接：https://blog.csdn.net/xmfthu/article/details/18889083

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Lecture2 梯度下降，最小二乘

Part I 梯度下降方法（gradient descent）

我们首先介绍一种求解多元函数极值的方法。梯度下降法是求解函数极小值的数值解法之一，它的优点是原理易懂，计算简单，但是易于陷入函数的局部极小值点（local optimum），受初始值影响较大。

梯度下降法的原理很简单。想象自己站在山顶，如何下山才能尽快地达到山脚呢？我们可以环视四周，看看沿着各个方向的下降陡峭程度。我们始终沿着下降最陡峭的方向走，这样在不出意外的情况下，我们就能到达山脚，而且速度也比较快。但是显而易见的一个问题便是：我们这样走的话，很容易跑偏。很有可能我们最后来到的不是山脚，而是被困在了一个局部的盆地里，始终不能出去。

这个日常生活中的常识便是梯度下降法的雏形，用数学公式表示的梯度下降法如下：

$\theta_{i}:=\theta_{i}-\alpha \frac{\partial}{\partial \theta_{i}}J(\bold \theta),\bold \theta=[\theta_{1},\theta_{2},\dots,\theta_{n}]^{\mathrm{T}}$

这样，通过一步一步迭代，我们就能使目标函数值收敛到极小值。在这里，符号 $\theta_{i}$ 表示的含义为第i个参数。上式即为对第i个参数的更新。 $\alpha$ 表示前进的步长，在机器学习中可以被理解为学习速率。要注意，学习速率过大，可能使得结果不收敛;学习速率过慢，可能使得结果更易陷入局部极小值点，并且收敛速度不够快。在实际应用时，该参数需要结合问题来具体分析。

我们常常要求残差平方的极小值，也就是使得下面的式子取得极小值：

$J(\bold \theta)=\frac{1}{2}(h_{\bold \theta}(x)-y)^{2}$

我们首先考虑 $h_{\bold \theta}(x)$ 是 $x$ 的线性函数，举个例子： $h_{\bold \theta}(x)=\theta_1 x_1+\theta_2 x_2+\theta_3 x_3$ 。或者我们把它写成向量形式： $h_{\theta}(x)=\sum_{i=1}^{n}\theta_{i}x_{i}=\bold \theta^{\mathrm{T}}x$

对于m(m>=1)个训练样本，我们所考察的函数变为残差的平方和。也就是定义如下的代价函数(Cost Function)：

$J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^{2}$

这个函数便是一种最小二乘的思想。这个时候，有：

$\begin{align}\notag \frac{\partial}{\partial \theta_{i}}J(\theta)&=\frac{\partial}{\partial \theta_{i}}[(\frac{1}{2}h_{\theta}(x)-y)^2]\\\notag &=(h_{\theta}(x)-y)\frac{\partial}{\partial \theta_{i}}(h_{\theta}(x)-y)\\\notag &=(h_{\theta}(x)-y)\frac{\partial}{\partial \theta_{i}}(\theta_{0}x_0+\cdots+\theta_{i}x_{i}+\cdots+\theta_{n}x_{n})\\\notag &=(h_{\theta}(x)-y)x_{i}\end{align}$

所以对于参数的更新可以按照如下的式子进行：

$\theta_{i}:=\theta_{i}-\alpha \sum_{j=1}^{m}[h_{\theta}(x^{(j)})-y^{(j)}]x_i^{(j)}$

这样，就能够取得代价函数的最小值，这时候的参数便是模型的参数。要注意的一点是，梯度下降法是一种求解函数极值的方法，这种方法的关键点就是计算当前点的梯度方向，朝这个方向走向下一个点，不停迭代，直到收敛。

Part I 最小二乘（gradient descent）

在前面的梯度下降法中，已经介绍了最小二乘法的思想，总之就是使得残差的平方和最小，认为是损失最小，所以形象地把这个函数叫做代价函数。在上一节中，我们给出了最小二乘的一种数值解法，即梯度下降法。在这一节中，我们将使用矩阵微分的几个定理，推导出最小二乘的公式解。首先我们有必要引进一些符号：

$\triangledown _{\theta}J \triangleq \begin{bmatrix}\frac{\partial J}{\partial \theta_{0}}\\ \vdots \\ \frac{\partial J}{\partial \theta_{n}}\end{bmatrix}$