【机器学习基石】线性回归（九）

最新推荐文章于 2024-03-25 08:00:00 发布

比奇堡咻飞兜

最新推荐文章于 2024-03-25 08:00:00 发布

阅读量139

点赞数 1

分类专栏：机器学习文章标签：机器学习线性回归

本文链接：https://blog.csdn.net/weixin_46308081/article/details/119676823

版权

机器学习专栏收录该内容

17 篇文章 5 订阅

订阅专栏

写在前面

本节主要介绍了线性回归原理以及它的可行性，最后与前面学过的线性分类进行了对比分析。

1. 线性回归问题

$\bullet$ 引入：我们假设现在有些用户已经申请到了信用卡，但是银行决定给他们发放多少钱。此时返回的结果就是一个实数区间。

$\bullet$ 实现：

$\triangleright$ 现在我们有用户的信息，包括以下内容：年龄、年收入、工作年龄、当前负债。

$\triangleright$ 我们还是像（二）中感知机模型提到的一样，为每一个维度分配一个权重，然后求得总和，最后在减去一个偏差（阈值）。为了优化，把这个偏差放到了第0维度。（具体实现看机器学习基石二中第一块内容）

所以当有d个维度时，自变量 $x=(x_{0},x_{1},...x_{d})$ ，返回值 $y≈\sum_{i=0}^{d}w_{i}x_{i}$
线性回归假设： $h(x)=w^{T}x$

（它很像感知机模型，但是感知机模型最终求的是符号）

$\triangleright$ 当 $x$ 只有一个维度或者两个维度时，做出来的直线如下：
在这里插入图片描述
对于一维、二维的 $x$ 来说，线性回归最终要找到的就是误差最小的直线以及平面。每个点到直线或者平面的竖直距离就是该点的误差。

$\triangleright$ 计算误差的方法：最小二乘法。我们求解误差的平方和对应的权重，对于单点来说就是：
$err(\hat{y},y )=(\hat{y}-y)^{2}$
对于样本数据来说，计算方法为（选择对应误差最小的一组权重值）：
$E_{in}(w)=\frac{1}{N} \sum_{n=1}^{N}(w^{T}x_{n}-y_{n})^{2}$
对于整体数据来说，计算方法为（整体数据对应的误差结果）：
$E_{out}(w)= \underset{(x,y)\sim P}{\varepsilon} (w^{T}x-y)^{2}$

我们接下来需要实现的就是如何找到较小的 $E_{in}(w)$ 。

2. 求解最小的 $E_{in}(w)$ 对应的 $w$

$\bullet$ 上面我们已经得到了 $E_{in}(w)$ 的计算方法，接着我们对其进行转换：
$\begin{matrix} E_{in}(w)&= &\frac{1}{N} \sum_{n=1}^{N}(w^{T}x_{n}-y_{n})^{2}= &\frac{1}{N} \sum_{n=1}^{N}(x_{n}^{T}w-y_{n})^{2} \\ & = & \frac{1}{N}\begin{Vmatrix} x_{1}^{T}w-y_{1} \\ x_{2}^{T}w-y_{2}\\ ...\\ x_{n}^{T}w-y_{n} \end{Vmatrix}^{2} & \\ & = &\frac{1}{N}\begin{Vmatrix} \begin{bmatrix} -& x_{1}^{T} & -\\ -& x_{2}^{T} & - \\ -& ... & -\\ -& x_{N}^{T} & - \end{bmatrix}w-\begin{bmatrix} y_{1}\\ y_{2} \\ ...\\ y_{N} \end{bmatrix} \end{Vmatrix}^{2} & \\ & = & \frac{1}{N}\left \| \underset{N×d+1}{\underbrace{X} } \underset{d+1×1}{\underbrace{w} } -\underset{N×1}{\underbrace{y} } \right \| & \end{matrix}$

我们将其展开为矩阵形式，最后得到的表达式中有矩阵 $X$ ，它是样本数据矩阵，它有 $N$ 个样本数据，每个样本数据有 $d$ 维，再加上第0维，一共 $d + 1$ 维；向量 $w$ 为权重向量，本来是 $d$ 维，再加上第0维，一共 $d + 1$ 维；向量 $y$ 为线性回归直线上对应的值，为 $N$ 行1列。

$\bullet$ 那么先在要求的就是： $\underset{w}{min} \ E_{in}(w)=\frac{1}{N} \left \| Xw-y\right \|^{2}$
其中矩阵 $X$ 和向量 $y$ 都是已知的，那么我们现在做出 $w$ 与 $E_{in}(w)$ 的坐标图：
在这里插入图片描述
我们要寻找 $w$ 的值，使得 $E_{in}$ 的函数值最小，表现在梯度为0上。

$\bullet$ 将上式展开可得：
$E_{in}(w)=\frac{1}{N}(w^{T} \underset{A}{\underbrace{X^{T}X}}w-2w^{T} \underset{b}{\underbrace{X^{T}y}}+\underset{c}{\underbrace{y^{T}y}})$
它的梯度为：
$\nabla E_{in}(w)=\frac{2}{N}(X^{T}Xw-X^{T}y)$
令偏导等于0，可以得到解为(最终权重向量)：
$w_{LIN}=(X^{T}X)^{-1}X^{T}y$
我们把 $X^{T}X)^{-1}X^{T}$ 叫做伪逆矩阵（pseudo-inverse），记作 $X^{\dagger}$ ，所以有：
$w_{LIN}=X^{\dagger}y$
当 $N$ 远大于 $d + 1$ 时，可以求得伪逆矩阵。当我们得到 $w_{LIN}$ 以后，那么线性回归直线就为：
$\hat{y}=w_{LIN}^{T}x_{n}=XX^{\dagger}y$

3. 泛化问题

$\bullet$ 通过上面推出来的公式我们可以直接得到 $w_{LIN}$ ，感觉就没有机器自己学习进步的过程，那么是不是就以为着此类方法不属于机器学习呢？

其实在实现的过程中也对 $E_{in}$ 和 $E_{out}$ 进行了最小化的求解，从结果来看，确实属于机器学习。

$\bullet$ 下面通过一种方法来证明线性回归可以得到较好的 $E_{in}$ 和 $E_{out}$ 。
$E_{in}(w_{LIN}) = \frac{1}{N} \left \| y-\hat{y} \right \|^{2} = \frac{1}{N}\left \| y-XX^{\dagger}y \right \|^{2} =\frac{1}{N} \left \| (I-XX^{\dagger})y \right \|$
我们把 $XX^{\dagger}$ 叫做帽子矩阵(hat matrix) $H$ ，下面具体来具体 $H$ 的具体含义（在N维实例中）：
在这里插入图片描述
$\triangleright$ $\hat{y}=Xw_{LIN}$ 位于 $d + 1$ 维平面的一条直线。

$\triangleright$ 那么 $y-\hat{y}$ 就是将y向量投影在 $\hat{y}$ 平面时结果最小。

$\triangleright$ 机器学习就是想找到最接近y的直线 $\hat{y}$ 。记录 $t r a c e (I - H) = N - (d + 1)$ ， $t r a c e (I - H)$ 为 $I - H$ 的迹。

当存在 $n o i s e$ 时，发生改变：

在这里插入图片描述
$E_{in}()w_{LIN}=\frac{1}{N} \left \| (I-H)noise \right \|^{2}=\frac{1}{N}(N-(d+1))\left \| noise \right \|^{2}$
最后可以分别求得 $\bar{E_{in}}$ 和 $\bar{E_{out}}$ ：
$\bar{E_{in}}=noise \ level \cdot (1-\frac{d+1}{N})$ $\bar{E_{out}}=noise \ level \cdot (1+\frac{d+1}{N})$

将它们画出来如下：
在这里插入图片描述
其中 $\sigma ^{2}$ 就是 $\ level$ ，当 $N$ 趋于无穷大时，我们可以看到 $\bar{E_{in}}$ 和 $\bar{E_{out}}$ 逐渐接近 $\ level$ ，也证明了这种方式时可以进行机器学习的。

4. 与线性分类的对比

可以发现它们的结果 $y$ 定义域不同，线性分类只能为-1或+1，线性回归为整个实数域； $h (x)$ 也不同，线性分类只要符号，线性回归需要具体的值；它们计算误差的方法也不同。
在这里插入图片描述
下面给出了两种错误的比较：

可以发现无论在什么情况下，线性分类的误差都不大于线性回归的误差。而且线性回归的方法同样也可以求解线性分类的问题。

比奇堡咻飞兜

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【机器学习基石】线性回归（九）

目录写在前面1. 线性回归问题2. 求解最小的 Ein(w)E_{in}(w)Ein(w) 对应的 www3. 泛化问题4. 与线性分类的对比写在前面本节主要接受啊了线性回归原理以及它的可行性，最后与前面学过的线性分类进行了对比分析。1. 线性回归问题∙\bullet∙ 引入：我们假设现在有些用户已经申请到了信用卡，但是银行决定给他们发放多少钱。此时返回的结果就是一个实数区间。∙\bullet∙ 实现：▹\triangleright▹ 现在我们有用户的信息，包括以下内容：年龄、年收入、工作
复制链接

扫一扫