机器学习笔记-相关与回归分析

最新推荐文章于 2024-08-26 17:37:40 发布

复杂混沌

最新推荐文章于 2024-08-26 17:37:40 发布

阅读量5.3k

点赞数 1

分类专栏：机器学习笔记

本文链接：https://blog.csdn.net/weixin_54814385/article/details/123274108

版权

聚类机器学习 kmeans

机器学习笔记专栏收录该内容

35 篇文章

订阅专栏

前言

相关与回归分析是分析变量之间关系的统计方法，本章只介绍简单的相关分析和一元线性回归。

变量间关系的度量

变量之间存在的不确定的数量关系，称为相关关系
即当给定一个自变量 $x$ ，其对应的因变量 $y$ 值可能有好几个，这种关系不确定的变量显然不能用函数关系来描述，但也不是没有规律可循，相关分析就是分析这类数据的方法。

相关系数	相关程度
\| r \| $=$ 1	完全线性关系
0.8 $\le$ \| r \| $\le$ 1	高度相关关系
0.5 $\le$ \| r \| $\le$ 0.8	中度相关关系
0.3 $\le$ \| r \| $\le$ 0.5	低度相关关系
\| r \| $\le$ 0.3	极弱相关关系
\| r \| $=$ 0	不存在线性关系

一元线性回归

回归分析非常重要！
很早之前就接触过回归分析，那个时候还只是知道给定两组数据，使用Matlab的回归函数直接计算系数，然后进行预测。从来不知道回归分析的详细推导，其实别看回归分析非常简单，后面包含的知识体系非常大。
回归分析包含线性回归和非线性回归，线性回归中有包含一元线性和多元线性，我们这里只研究一元线性回归。
描述因变量 $y$ 如何依赖于自变量 $x$ 和误差项 $\varepsilon$ 的方程，称为回归模型。对于只涉及一个自变量的一元线性回归模型如下：
$\beta_0+\beta_1 x+\varepsilon$
$y$ 的值是由自变量 $x$ 和误差项所决定，误差项 $\varepsilon$ 是一个期望值为0的随机变量，即 $E(\varepsilon)=0$ ，这也意味着，模型中的 $\beta_0$ 和 $\beta_1$ 是常数，于是 $y$ 的期望值 $E(y)=\beta_0+\beta_1 x$ 。

参数的最小二乘估计

对于第 $i$ 个值 $x$ ，估计的回归方程可以表示为：
$\hat y_i=\hat \beta_0 + \hat \beta_1x$
我们现在需要找到求解参数 $\beta_0$ 和 $\beta_1$ 的方法。这种方法就是最小二乘法。
在前面梯度下降法哪里就介绍了求解回归方程的一种方法，用梯度下降法迭代，在这里我们介绍另一种方法，叫做最小二乘法，其实思想非常简单，就是求导。
首先定义一个类似损失函数的式子：使因变量的观察值 $y_i$ 和估计值 $\hat y_i$ 之间的离差平均和达到最小来求得 $\hat \beta_0$ 和 $\hat \beta_1$ ，于是有：
$\sum{(y_i-\hat y_i)^2}$
这里的 $Q$ 有点像损失函数，对其求偏导然后等于0：
$\sum\limits_{i=1}^n{y_i=n\hat\beta_0+\hat\beta_1\sum\limits_{i=1}^n}x_i\\ \sum\limits_{i=1}^n{x_iy_i}=\hat\beta_0\sum\limits_{x_i}^n{x_i}+\hat\beta_1\sum\limits_{i=1}^n {x_i^2}$
解上述方程组为：
$\hat\beta_1=\frac{n\sum\limits_{i=1}^nx_iy_i-\sum\limits_{i=1}^nx_i\sum\limits_{i=1}^ny_i}{n\sum\limits_{i=1}^nx_i^2-(\sum\limits_{i=1}^nx_i)^2}\\ \hat\beta_0 = \overline y-\hat\beta_1 \overline x$

利用最小二乘法就可以求解合适的参数，一般在遇到问题时，我们都是借助计算机来求解，因为计算机只需要导入数据，直接可以生成所有结果。
在平时做题时，我们利用最小二乘法求解完参数就以为结束了，但是事实上还有很多工作没有做，或者说做了我们不知道，例如参数的检验，线性关系的检验和拟合效果评价。

回归直线的拟合优度

我们利用最小二乘法对数据进行了拟合，但是效果怎么样却不能直观看出，我们需要计算相关的指标，其中用来评价拟合效果的指标就是判定系数。
判定系数又称 $R^2$ ，在了解 $R^2$ 是如何计算前，需要了解几个定义：
首先是 $S S T$ , $SST=\sum(y_i-\overline y)^2$ ，我们称之为离差平方和，这个值是确定的，因为两个值都可以直接计算得出，现在对 $S S T$ 进行一个分解，得到：
$SST=\sum(y_i-\overline y)^2=\sum(\hat y_i-\overline y)^2+\sum(y_i-\hat y_i)^2$
它有两部分组成，为了搞明白 $R^2$ 的计算原理，需要用到上述的两部分，分别为 $S S R$ 和 $S S E$ ，于是得到：
$总平方和（ S S T ） = 回归平方和（ S S R ） + 残差平方和（ S S E ）$
而判定系数的计算公式如下：
$R^2=\frac{SSR}{SST}=\frac{\sum(\hat y_i-\overline y)^2}{\sum(y_i-\overline y)^2}$
从上面的式子可以看出，我们进行回归的目的就是让残差平方和最小，其实转变一下就是让 $S S R$ 与 $S S T$ 的比值越大，这一点很有意思， $R^2$ 越接近于1，说明 $\hat y$ 和 $y$ 的值也越接近。
我们可以用它来评价回归直线拟合的效果如何，当 $R^2$ 的值越接近于1，就说明我们拟合的模型效果就越好。
在前面的相关系数我们计算的相关系数是 $r$ ，这里的判定系数为 $R^2$ ，都含有 $r$ ，那么它们之间是否有某种关系呢？
答案是肯定的，在一元线性回归中，相关系数 $r$ 实际上就是判定系数的平方根，利用这一结论就可以直接计算判断系数了。在前面我们说过通过 $r$ 可以看出观测数据的线性关系如何，那么这里又知道也可以通过 $r$ 来说明回归直线的拟合优度，但是有一点需要注意，用 $r$ 来直接评判拟合优度的效果并没有 $R^2$ 好，因为当 $r$
的值为0.5时， $R^2$ 才有0.25，拟合的效果并不好，当 $r$ 的值为0.7时， $R^2$ 才有0.5。所以我们一般不直接用 $r$ 的值来评价模型的拟合优度。

回归直线的误差

上一节介绍的是回归直线的拟合优度，也就是拟合效果，通过计算判定系数来反映模型的拟合情况，这一节我们要讨论的是模型的预测能力，也就是测量各实际观测点在直线周围的散布状况，这个量就是标准误差，也叫 $M S E$ 。
还记得在机器学习中了解到 $M S E$ 是均方误差，在那里叫做：Mean squared error，而这里叫做估计量的标准差：Standard error of estimate。虽然说定义上不同，但是我觉得都大差不差，我是把两种的适用范围混在一起了，本文的标准差计算公式如下：
$S_e=\sqrt{\frac{\sum(y_i-\hat y_i)^2}{n-2}}=\sqrt{\frac{SSE}{n-2}}=\sqrt{MSE}$
若 $S_e$ 的值为0，则说明误差为0，侧面表示了拟合优度很好。
$M S E$ 反映了用估计的回归方程预测因变量 $y$ 时预测误差的大小。

显著性检验

没错，又是显著性检验，这已经是本文第二次接触显著性检验了，在前面说要检验相关系数的可靠性，在这里也需要检验回归系数的可靠性。不仅仅要检验回归系数的可靠性，还需要检验线性关系的可靠性，是不是很多？其实不需要担心这么多，这些东西计算机会帮我们计算好。
在前面说过，在根据样本来拟合回归方程时，实际上已经假定变量 $x$ 与 $y$ 之间存在线性关系，即 $y=\beta_0+\beta_1x+\varepsilon$ ，并假定误差项 $\varepsilon$ 是一个服从正态分布的随机变量，且对不同的 $\varepsilon$ 都有相同的方差，但这些假设是否成立，需要检验才能证实。

线性关系的检验

第一个需要检验的就是自变量 $x$ 和因变量 $y$ 之间的线性关系是否显著，或者说，它们是否满足假定的条件。所有的检验方法都需要构建一个检验统计量，在这里统计量的构建是以回归平方和 $S S R$ 以及残差平方和 $S S E$ 为基础的。将 $S S R$ 除以其相应的自由度（自变量的个数 $k$ ，一元回归中的 $k$ 等于1）后的结果称为均方回归，记为 $M S R$ ，我们在这里关心的是线性关系显著，所以备择假设应该就是 $x$ 和 $y$ 满足线性关系，那么原假设就是 $x$ 和 $y$ 不满足线性关系，具体步骤如下：

提出假设 $H_0:\beta_1=0,两个变量之间的线性关系不显著\\ H_1:\beta_1\ne0,两个变量之间的线性关系显著$

计算检验统计量 $F$ $\frac{SSR/1}{SSE/(n-2)}=\frac{MSR}{MSE}$

做出决策，根据显著性水平 $\alpha$ 和 $F$ 统计量的 $P$ 值，若 $P<\alpha$ ，拒绝原假设，表明两个变量之间的线性关系是显著的，反之则不显著。

线性关系的检验其实就是方差分析，关于两者的关系参考这篇文章方差分析与回归的关系

回归系数的检验

回归系数的显著性检验就是要检验自变量对因变量的影响是否显著的问题。其实就是检验回归系数是否等于0，详细步骤如下：

提出假设
$H_0:\beta_1=0\\ H_1:\beta_1\ne0$
计算检验统计量 $t$
$\frac{\hat \beta_1}{s_{\hat \beta_1}}$
做出决策，根据显著性水平 $\alpha$ 和 $t$ 统计量的 $P$ 值，若 $P<\alpha$ ，拒绝原假设，表明自变量 $x$ 对因变量 $y$ 的影响是显著的，反之则不显著。

回归方程的预测

经过一系列的假设检验等等，终于找到合适和回归方程，现在我们可以使用这个方程进行预测。有人说，预测这不是很简单嘛，给定一个 $x$ 值，把 $x$ 带入回归方程直接计算不就行了嘛。没错就是这么简单，但是除此之外，我们还可以计算区间估计值，而这个区间估计值又分为两种：置信区间和预测区间。

置信区间

对于一个特定的 $x_0$ 值，求出 $y$ 的平均值的估计区间就是区间估计。一般来说， $E(y_0)$ 在 $1-\alpha$ 置信水平下的置信区间可以表示为：
$\hat y_0\pm t_{\alpha/2}s_e\sqrt{\frac{1}{n}+\frac{(x_0-\overline x)^2}{\sum\limits_{i=1}^n(x_i-\overline x)^2}}$
上面的 $s_e$ 是均方残差。 $t_{\alpha/2}$ 是通过查表得到的。

预测区间

对 $x$ 的一个给定值 $x_0$ ，求出 $y$ 的一个个别值的区间估计，称为预测区间估计，计算公式如下：
$\hat y_0\pm t_{\alpha/2}s_e\sqrt{1+\frac{1}{n}+\frac{(x_0-\overline x)^2}{\sum\limits_{i=1}^n(x_i-\overline x)^2}}$
可以看到预测区间和置信区间的计算公式是非常的相似，只是预测区间中多了一个1。因此对于同一个 $x_0$ ，这两个区间的宽度也是不一样的，预测区间要比置信区间宽一些。