Andrew Ng机器学习笔记（二）

最新推荐文章于 2023-04-26 21:43:23 发布

FlitDu

最新推荐文章于 2023-04-26 21:43:23 发布

阅读量684

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/yunfeiyahg/article/details/77894311

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

4.多元线性回归

对于多元回归，道理同之前讲述的一样，要引入线性代数表达。此时，可视化描述已经不可能了。现在的假设函数变为：
$h_\theta(x)=\theta_0+\theta_1x$ ———> $h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+...\theta_nx_n$

为了方便数学上的表示，引入 $x_0=1$ ，则 $\theta_0=\theta_0x_0$
那么可得到假设函数的向量表示：
$h_\theta(x)=\theta_0x_0+\theta_1x_1+\theta_2x_2+...\theta_nx_n=\theta^Tx$

相应的梯度下降算法，参考以前的进行修正即可，最终的表达式反而更简洁：

4.1一些技巧

特征缩放：将所有的特征的数量级都在一个差不多的范围之内, 以加快梯度下降的速度.
如下图所示，经过特征缩放，寻找的梯度将会更快地到达目的地。特征缩放之后，针对的是偏导数，改变的是“探寻的方向”。
这里写图片描述

特征缩放的两个处理方式：

还有一个特征处理的方法就是均值归一化(Mean normalization):这里的 $\mu_i$ 为范围的均值

确认算法运行的正确与否：画出代价函数 $J_\theta$ 随着 $\theta$ 的变化图
如果图形变化趋势如下，则说明是正确的。还有一种叫自动收敛测试的方法, 即每次迭代之后观察
$J_\theta$ 的值, 如果迭代之后下降的值小于 $\epsilon$ (例如 $\epsilon=10^{-3}$ )就判定为收敛. 不过准确地选择阈值 $\epsilon$ 是非常困难的, 通常还是使用画图的方法.
这里写图片描述

$\alpha$ 的选取：如果出现了下面的两种情况, 这个时候应该选择更小的 $\alpha$
注意:

如果足够 $\alpha$ 小, 那么 $J_\theta$ 在每次迭代之后都会减小。但是如果太小, 梯度下降会进行的非常缓慢.
如果学习率 α 过大，每次迭代可能不会减小代价函数，可能会越过局部最小值导致无法收敛

这里写图片描述

可以使用下面几个值进行逐个尝试。（吴老师介绍自己的经验在）

特征选择与多项式回归：
比如在房价预测问题，选取房屋的长和宽作为变量，我们有如下假设函数：
$h(\theta)=\theta_0+\theta_1\times frontage+\theta_2\times depth$
但是，如果我们考虑到真正决定房屋价格的是面积，那么我们可以重新选择我们的特征 $x=frontage\times depth$ ，假设函数变为：
$h(\theta)=\theta_0+\theta_1 x$
通过这种特征的选择, 我们可能得到一个更好的模型。

有时，观察数据集发现使用多项式拟合更好，比如二次函数三次函数等， $h(\theta)=\theta_0+\theta_1 x+\theta_2 x^2+\theta_3 x^3$ ，那么如何使用之前的线性回归模型呢？可以进行如下的特征选择处理 (这里需要注意的是， $x_1,x_2,x_3$ 的范围差别会非常大, 所以一定要进行特征缩放处理）：