【机器学习】多元线性回归详解和特征压缩

最新推荐文章于 2024-02-18 11:27:08 发布

NormalConfidence_Man

最新推荐文章于 2024-02-18 11:27:08 发布

阅读量550

点赞数

分类专栏：机器学习文章标签：机器学习线性回归算法

本文链接：https://blog.csdn.net/weixin_45434953/article/details/130604086

版权

机器学习专栏收录该内容

17 篇文章 0 订阅

订阅专栏

文章介绍了多元线性回归的假设函数，特别是在处理多个特征如房屋价格预测时的应用。它详细阐述了代价函数和梯度下降法在优化模型参数中的作用。此外，还讨论了特征缩放的重要性，以加速梯度下降的收敛速度，并提及了多项式回归在非线性问题上的应用。

摘要由CSDN通过智能技术生成

注意⚠️阅读本文前，你应该需要掌握：机器学习线性回归模型、高等数学微积分部分内容、线性代数矩阵部分内容
前情提要：https://blog.csdn.net/weixin_45434953/article/details/130593910

一、多元线性回归的假设函数

首先我们考虑以下的例子：
有一个数据集，里面给出了房屋的价格、面积大小、楼层数、房龄和寝室数量，希望可以建立模型，根据面积大小、楼层数、房龄和寝室数量推测出房屋售价。

在这里插入图片描述

n用于表示特征量数量
$x^{(i)}$ 用于表示第i个样例
$x_j^{(i)}$ 用于表示第i个样例的第j个特征的值

那么第二个样例写成矩阵形式如下：
$x^{(2)}=\begin{bmatrix}1416 \\2 \\2 \\40\end{bmatrix}$
我们在前面的线性回归中，使用了 $h_\theta = \theta_0+\theta_1x$ 作为假设函数，但是在这里显然已无法满足有4个自变量的线性回归，那么当前样例的假设函数应该设置为 $h_\theta = \theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_3+\theta_4x_4$ 。当然，我们推广开来可得，如果 $x_0$ 恒为1的话，对于拥有n个特征量的线性回归的假设函数应该为 $h_\theta = \theta_0x_0+\theta_1x_1+\theta_2x_2+\theta_3x_3+....+\theta_nx_n$ ，裆燃，如果你想用向量的形式表示，那么则如下所示
$h_\theta=\begin{bmatrix} \theta_0 & \theta_1 & \theta_2 & ... & \theta_n\end{bmatrix}\begin{bmatrix}x_0\\x_1 \\x_2 \\... \\x_n\end{bmatrix}(x_0=1)$

二、多元梯度下降法

上面已经得出了假设函数，在含有n个特征的多元线性回归下我们可以将n个特征值看为一个有n个元素的向量，上面已经提到其假设函数为 $h_\theta = \theta_0x_0+\theta_1x_1+\theta_2x_2+\theta_3x_3+....+\theta_nx_n(x_0=1)$ ，那么多元线性回归的代价函数是什么呢？根据之前学习单特征值的线性回归的经验推导，可知其代价函数为 $J(\theta_0,\theta_1...,\theta_n) = \frac{1}{2m}\sum_{i=1}^{m} (h_\theta(x^{(i)})-y^{(i)})^2\tag{1}$ 也就是会使用预测点和实际点的差值的平方的和作为代价函数
同时，他的梯度下降函数如下：
$\theta_j := \theta_j-\alpha\frac{\partial J(\theta_0,\theta_1...,\theta_n)}{\partial \theta_j } \tag{2}$
从 $j = 0, ...., n$ 循环该函数
将公式(1)和公式(2)合并起来，并且进行求导，可以得到梯度下降函数如下：
$\theta_j := \theta_j-\alpha\frac{1}{m}\sum_{i=1}^{m} (h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}\tag{3}$
这里 $j={0,1,2,..n}$ ，并且 $x_0=1)$

三、使用特征缩放改进梯度下降

这里我歪一下楼，先介绍一些梯度下降的技巧，其中一个技巧就是特征缩放，假设有一个拥有房屋面积和房间数两个特征量和一个房屋价值的结果变量的数据集，其中房屋面积 $\theta_1$ 取值为0到2000，房间数 $\theta_2$ 的取值为0到8。可以看出两个特征向量差别特别大。如果我们画出该数据集的代价函数 $J(\theta)$ ，会发现它特别的狭长，这对梯度下降并不友好，下降的路径可能会较为曲折并且花费的时间也会比较多
代价函数图，红色为梯度下降路径
一个简单的解决办法就是，对特征值的取值进行缩放，比如 $\theta_1 := \frac{\theta_1}{2000},\theta_2=\frac{\theta_2}{8}$ ，这样一来， $\theta_1$ 和 $\theta_2$ 取值范围都是0到1，这样得到的梯度下降函数收敛将会更加快速
在这里插入图片描述
在更普遍的情况中，我们的目标一般是将特征值约束在 $(- 1, 1)$ 的区间中，因此特征缩放又被称为归一化。假设有一个特征向量 $x_1$ ，其取值范围为 $(0, 2000)$ ，平均值 $Avg(x_1)=1000$ ，那么一般采用以下式子进行归一化:
$x_1 = \frac{x_1-Avg(x_1)}{2000}$
这又被称为均值归一化。

说到底，特征缩放是用于将特征向量的取值范围限制在一个相近的范围内，使得梯度下降更加顺滑，所需的次数更少。

四、多项式回归

假设有如下一个数据集合，其中特征为房屋大小，结果集为房屋价格
在这里插入图片描述
可以看到，这些点不太适合用线性回归，我们可以试着使用二元假设函数 $h(x)=\theta_0+\theta_1x+\theta_2x^2$ 来拟合。

但是这种二次方假设函数会让房子面积达到一定地步后，价格反而下降了，所以使用 $h(x)=\theta_0+\theta_1x+\theta_2x^2+\theta_3x^3$ 会更合理。如果x的取值为0到2000，那么x³将会是相当大的数字，因此归一化是十分必要的。