回归算法基础知识

xsfree

已于 2022-03-14 21:51:41 修改

阅读量4k

点赞数 3

分类专栏：数学与算法人工智能文章标签：回归机器学习算法

于 2022-03-14 20:58:22 首次发布

本文链接：https://blog.csdn.net/xsfree/article/details/123467587

版权

数学与算法同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

人工智能

1 篇文章 0 订阅

订阅专栏

1. 基本概念

回归（Regression）是分析变量之间相互关系的一种方法。

“回归”一词最早是由英国科学家弗朗西斯·高尔顿（Francis Galton，1822－1911）提出的，高尔顿在实验中注意到，无论是豌豆种子的尺寸，还是人类的身高，都存在一种向均值进行回归的现象。后来，尽管回归这个词语本身和数值预测没有任何关系，但这种研究方法还是被称作回归。

回归研究的变量有两类：

自变量：通过大量试验或观测获得的数据，用 $\small X_{1},X_{2},...,X_{p}$ 表示。
因变量：实际问题中所关心的结果指标，用 $\small Y$ 表示。

回归分析的过程：

（1）确定 $\small Y$ 与 $\small X_{1},X_{2},...,X_{p}$ 间的定量关系表达式，即回归方程。

（2）对求得的回归方程的可信度进行检验。

（3）判断自变量 $\small X_{1},X_{2},...,X_{p}$ 对 $\small Y$ 有无影响。

（4）利用所求得的回归方程进行预测。

2. 一元线性回归

一元线性回归只考虑一个因变量 $\small Y$ 与一个自变量 $\small X$ 之间的关系。

2.1 数学模型

假设有一组数据 $(x_{i},y_{i})$ ， $i=1,2,...,n$ 。

以 $X$ 为横坐标， $Y$ 为纵坐标，将数据对 $(x_{i},y_{i})$ 在 $X-Y$ 坐标中画出散点图。

我们会发现，数据点在一条直线的附近，于是我们可以假设 $Y$ 与 $X$ 是线性关系，这些点与直线的偏离由一些不确定因素造成。

即假设： $Y=\theta _{0}+\theta _{1}X+\varepsilon$

上式中， $\theta _{0}+\theta _{1}X$ 表示 $Y$ 随 $X$ 的变化而线性变化的部分； $\varepsilon$ 是随机误差，是其他一切不确定因素影响的总和，其值不可观测，通常假定 $\varepsilon\sim N(0,\sigma ^{2} )$ 。

称函数 $f(X)=\theta _{0}+\theta _{1}X$ 为一元线性回归函数
称 $\theta _{0}$ 为回归常数， $\theta _{1}$ 为回归系数，统称回归参数
称 $X$ 为回归自变量（或回归因子）
称 $Y$ 为回归因变量（或响应变量）

若 $(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n})$ 是 $(X,Y)$ 的一组观测值，则一元线性回归模型可表示为：

$y_{i}=\theta_{0}+\theta_{1}x_{i}+\varepsilon _{i}$ , $i=1,2,...,n$

其中 $E(\varepsilon _{i})=0$ ， $Var(\varepsilon _{i})=\sigma^{2}$ ， $i=1,2,...,n$ 。

2.2 回归参数的估计

求解思路：求出未知参数 $\theta_{0},\theta_{1}$ 的估计 $\hat{\theta}_{0},\hat{\theta}_{1}$ 的一种直观想法，是使得点 $(x_{i},y_{i})$ 与直线上的点 $(x_{i},\hat{y}_{i})$ 的偏离越小越好。这里的 $\hat{y}_{i}=\hat{\theta}_{0}+\hat{\theta}_{1}x_{i}$ ，称为回归值或拟合值。

使用方法：最小二乘法。

令

$J(\theta_{0},\theta_{1})=\sum_{i=1}^{n}(y_{i}-(\theta_{0}+\theta_{1}x_{i}))^2$

函数用来描述真实值和预测值之间的差距。

通过使误差平方和达到最小的方式来寻求估计值的方法，叫做最小二乘法。
用最小二乘法得到的估计，叫做最小二乘估计。

$J(\theta_{0},\theta_{1})$ 是凸函数，令其求导并等于零可得极值。计算可得

$\hat\theta_{1}=\frac{\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{\sum_{i=1}^{n}(x_{i}-\bar{x})^2}$ , $\hat\theta_{0}=\bar{y}-\hat\theta_{1}\bar{x}$

其中

$\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i}$ , $\bar{y}=\frac{1}{n}\sum_{i=1}^{n}y_{i}$

2.3 模型拟合优度

拟合优度检验是对回归模型拟合效果的检验。

回归平方和：

$SSR=\sum_{i=1}^{n}(\hat{y_{i}}-\bar{y})^{2}$

残差平方和：

$SSE=\sum_{i=1}^{n}(\hat{y_{i}}-y)^{2}$

总平方和：

$SST=SSR+SSE=\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}$

可决系数：

$R^{2}=\frac{SSR}{SST}$

可决系数是评价回归模型拟合程度的重要指标，它表示了模型的总离差中可解释部分所占的比例。可决系数介于0和1之间，值越高，模型拟合效果越好。一般认为超过0.8的模型拟合优度比较高。

3、线性相关系数

在回归参数的估计公式中，我们假设了 $Y$ 与 $X$ 是存在线性相关的关系的，但如果不存在这种关系，那么求得的回归方程毫无意义。

线性相关系数是用于衡量两个随机变量之间线性相关程度的指标。

总体的线性相关系数：

$\rho_{X,Y}=corr(X,Y)=\frac{cov(X,Y)}{\sigma_{X}\sigma_{Y}}=\frac{E[(X-\mu_{X})(Y-\mu_{Y})]}{\sigma_{X}\sigma_{Y}}$

样本的线性相关系数：

$r_{x,y}=\frac{\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{\sqrt{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}}}$

$\rho _{XY}$ 取值在-1到1之间。

$\rho _{XY}=0$ 时，称 $X$ 、 $Y$ 不相关；

$|\rho _{XY}|=1$ 时，称 $X$ 、 $Y$ 完全相关，此时， $X$ 、 $Y$ 之间具有线性关系；

$|\rho _{XY}|<1$ 时， $X$ 的变动引起 $Y$ 的部分变动。 $\rho _{XY}$ 的绝对值越大， $X$ 的变动引起 $Y$ 的变动就越大。一般情况下， $|\rho _{XY}|>0.8$ 时称为高度线性相关。

注意：相关性不等同于因果性。

4、多元线性回归分析

4.1 数学模型

设变量 $Y$ 与变量 $X_{1},X_{2},...,X_{p}$ 间有线性关系

$Y=\theta_{0}+\theta_{1}X_{1}+...+\theta_{p}X_{p}+\varepsilon$

其中， $\varepsilon \sim N(0,\sigma^{2})$ ， $\theta_{0},\theta_{1},...,\theta_{p}$ 和 $\sigma^{2}$ 是未知参数， $p\geqslant 2$

称上述模型为多元线性回归模型。

设 $(x_{i1},x_{i2},...,x_{ip},y_{i})$ , $i=1,2,...,n$ 是 $(X_{1},X_{2},...,X_{p},Y)$ 的 $n$ 次独立观测值。

则多元线性模型可表示为 $y_{i}=\theta_{0}+\theta_{1}x_{i1}+...+\theta_{p}x_{ip}+\varepsilon_{i}$ ， $i=1,2,...,n$ 。

其中 $\varepsilon \sim N(0,\sigma^{2})$ ，且独立同分布。

为书写方便，常采用矩阵形式，令

$Y=\begin{bmatrix}y_{1} \\ y_{2} \\ \vdots \\y_{n} \end{bmatrix}$ ， $\theta=\begin{bmatrix}\theta_{1} \\ \theta_{2} \\ \vdots \\\theta_{n} \end{bmatrix}$ ， $X=\begin{bmatrix} 1 & x_{11} & x_{12} & \cdots & x_{1p} \\ 1 & x_{21} & x_{22} & \cdots &x_{2p} \\ \vdots & \vdots & \vdots & & \vdots \\ 1 & x_{n1} &x_{n2} & \cdots& x_{np} \end{bmatrix}$ ， $\varepsilon =\begin{bmatrix}\varepsilon _{1} \\ \varepsilon _{2} \\ \vdots \\\varepsilon _{n} \end{bmatrix}$

则多元线性模型可表示为

$Y=X\theta+\varepsilon$

其中 $Y$ 是由响应变量构成的 $n$ 维向量， $X$ 是 $n\times (p+1)$ 阶设计矩阵， $\theta$ 是 $p+1$ 维向量， $\varepsilon$ 是 $n$ 维向量，且满足 $E(\varepsilon )=0,Var(\varepsilon)=\sigma^{2}I_{n}$ 。