多元线性回归

Viokiri

已于 2022-07-08 16:08:54 修改

阅读量1k

点赞数

文章标签：线性回归机器学习

于 2022-07-04 03:04:42 首次发布

本文链接：https://blog.csdn.net/weixin_44570398/article/details/125483560

版权

之前的单变量线性回归只有一个输入变量，既自变量，但在实际运用中往往不止一个特征，如下图所示：

$n$ 为特征的个数
$x^{(i)}$ 为第 $i$ 个训练集的输入变量，既第 $i$ 个全部特征
$x_{j}^{(i)}$ 为第 $i$ 个训练集所有特征的第 $j$ 个特征，比如 $x_{3}^{(2)}=2$

在这个例子中， $n=4$ ，有4个特征，分别是房屋面积，卧室的年限，房子的层数和房子的年限， $x^{(2)}=(1416,3,2,40)^{T}$ 为训练集的第2个输入变量，既第二个全部的特征， $x_{3}^{(2)}=2$ 为第二个输入变量中的第三个特征，为房子的层数是2层，故在这个例子中，假设函数（hypothesis function）:

$h_{\theta }(x)=\theta _{0}+\theta _{1}x_{1}+\theta _{2}x_{2}+\theta _{3}x_{3}+\theta _{4}x _{4}$

以此类推，当训练集的输入变量有 $n$ 个特征时，假设函数（hypothesis function）:

$h_{\theta }(x)=\theta _{0}+\theta _{1}x_{1}+\cdots +\theta _{n}x _{n}$

把 $x_{0}$ 作为 $1$ ， $x$ 表示成向量为

$x=\begin{pmatrix} 1\\ x_{1}\\ \vdots \\ x_{n} \end{pmatrix}=\begin{pmatrix} x_{0}\\ x_{1}\\ \vdots \\ x_{n} \end{pmatrix}$

$\theta$ 表示为向量为

$\theta =\begin{pmatrix} \theta _{0}\\ \theta _{1}\\ \vdots \\ \theta _{n} \end{pmatrix}$

因此假设函数 $h_{\theta }(x)$ 为

$h_{\theta }(x)=\theta ^{T}x$

由此可知代价函数（cost function）为

$J(\theta _{0},\theta _{1},\cdots ,\theta _{n})=\frac{1}{2m}\sum_{i=0}^{m}(h_{\theta }(x^{(i)})-y^{(i)})^{2}$

采用多元梯度下降法和正规方程的方法来求得代价函数的最小值。

1、多元梯度下降法

在一元线性回归中，利用梯度下降法不停的更新 $\theta$ 值，使

$\theta _{j}:=\theta _{j}-\alpha \frac{\partial J(\theta _{0},\theta _{1})}{\partial \theta _{j}}$

同理，在多元线性回归中需不停的更新 $\theta$ 值

$\theta _{j}:=\theta _{j}-\alpha \frac{\partial J(\theta _{0},\theta _{1},\cdots ,\theta _{n})}{\partial \theta _{j}}:= \theta _{j}-\alpha \cdot\frac{1}{m}\sum_{i=1}^{m}(h_{\theta }(x^{(i)})-y^{(i)})\cdot x_{j}^{(i)}$

因为我们使 $x_{0}=1$ ，所以该式对 $\theta _{0}$ 也成立。

1.1、特征放缩

如果训练集中每个特征的值范围相差很大，就会导致代价函数（cost function）的呈下图这种情况，以两个特征为例，其中 $x_{1}$ 代表房屋面积，范围是0～2000， $x_{2}$ 代表卧室的数量，范围是1～5

这时在该代价函数 $J(\overrightarrow{\theta })$ 使用梯度下降法就会导致下降过程很缓慢，甚至还可能会出现来回波动。

在这种情况下，一种有效的方法就是进行特征放缩，这就可以让梯度下降法下降得更平缓且迅速，如下图所示

使所有特征的范围都处于0～1之间，既

$x_{1}:=\frac{x_{1}}{2000}$

$x_{2}:= \frac{x_{2}}{5}$

$x_{j}\in [0,1]$

一般来说，我们会利用特征放缩将 $x_{j}$ 的范围控制在 $[-1,1]$ ，既

$-1\leqslant x_{j}\leqslant 1$

但是与这个范围接近即可， $[-3,3]$ 或者 $[-\frac{1}{3},\frac{1}{3}]$ 都是可行的，根据实际情况而定。

在特征放缩中，有时也会进行均值归一化的工作，具体操作为有一个特征 $x_{j}$ ，在训练集中，该特征的平均值为 $\mu _{j}$ ，我们用 $x_{j}-\mu _{j}$ 来替换 $x_{j}$ ，使特征 $x_{j}$ 的平均值为0，最后再进行放缩，既表示为：

$x_{j}:= \frac{x_{j}-\mu _{j}}{s_{j}}$

其中 $s_{j}$ 为训练集中特征 $x_{j}$ 的范围，也可以是特征 $x_{j}$ 的标准差，但在这里使用特征 $x_{j}$ 的范围就足够了，最后特征 $x_{j}$ 的范围为

$-0.5\leq x_{j} \leq 0.5$

当然只要比这个范围差的不多均可。

1.2、学习率 $\alpha$

如果学习率选择不当，可能会导致代价函数不收敛，从而无法得到最小值，可以通过绘制迭代次数和代价函数的曲线来判断学习率是否选择正确和梯度下降是否正常工作，如下图所示，横坐标代表迭代次数，既梯度下降的次数，纵坐标表示代价函数 $J(\overrightarrow{\theta })$

当曲线递减，且趋于平缓的时候，表示梯度下降正常工作，选取较平缓时 $J(\overrightarrow{\theta })$ 作为最小值。

或者采用自动收敛测试，既在进行梯度下降的过程中，如果 $J(\overrightarrow{\theta })$ 的值小于一个很小的值 $\varepsilon$ ，则可以判断该代价函数 $J(\overrightarrow{\theta })$ 已经收敛，但要选择合适的阀值 $\varepsilon$ 是很困难的，使用 $J(\overrightarrow{\theta })$ 关于迭代次数的曲线图会更加的直观。

以下情况都需要减小 $\alpha$ 的值：

但 $\alpha$ 的值也不能太小，不然可能会导致 $J(\overrightarrow{\theta })$ 收敛的很缓慢。

总结：

如果学习率 $\alpha$ 选择的太小，迭代次数就会增加，收敛的速度会变慢
如果学习率 $\alpha$ 选择的太大，代价函数 $J(\overrightarrow{\theta })$ 可能不会在每次迭代都下降，甚至有可能不收敛反而越来越大。
所以我们一般选择学习率 $\alpha$ 会尝试

$\cdots\ 0.001\ , \0.003\ ,\0.01\ , \0.03\ , \0.1\ , \0.3\ \cdots$

2、正则方程法

对于某些线性回归问题，除了梯度下降法可以得到代价函数 $J(\overrightarrow{\theta })$ 的最小值，我们也可以用正则方程的方法。如下图所示的训练集有4个训练样本， $m=4$ ，输入变量包含四个特征， $n=4$ ，并把 $x_{0}$ 全部都设为1。

$X$ 是包含了训练集中所有输入变量的矩阵， $y$ 是目标变量的向量。

因为输入变量可能包含多个特征，故一般形式为为：

$x^{(i)}=\begin{pmatrix} 1\\ x_{1}^{(i)}\\ \vdots \\ x_{n}^{(i)} \end{pmatrix}$

所以矩阵 $X$ 可以表示为

$X=\begin{pmatrix} 1 & x_{1}^{(1)} &\cdots & x_{n}^{(1)}\\ 1 & x_{1}^{(2)} & \cdots & x_{n}^{(2)}\\ 1 & \vdots & \ddots & \vdots \\ 1 & x_{1}^{(m)} & \cdots & x_{n}^{(m)} \end{pmatrix}=\begin{pmatrix} (x^{(1)})^{T}\\(x^{(2)})^{T} \\ \vdots \\(x^{(m)})^{T} \end{pmatrix}$