回归算法基础知识

1. 基本概念

回归(Regression)是分析变量之间相互关系的一种方法。

“回归”一词最早是由英国科学家弗朗西斯·高尔顿(Francis Galton,1822-1911)提出的,高尔顿在实验中注意到,无论是豌豆种子的尺寸,还是人类的身高,都存在一种向均值进行回归的现象。后来,尽管回归这个词语本身和数值预测没有任何关系,但这种研究方法还是被称作回归。

回归研究的变量有两类:

  • 自变量:通过大量试验或观测获得的数据,用 \small X_{1},X_{2},...,X_{p}  表示。
  • 因变量:实际问题中所关心的结果指标,用  \small Y 表示。

回归分析的过程:

(1)确定 \small Y 与 \small X_{1},X_{2},...,X_{p} 间的定量关系表达式,即回归方程。  

(2)对求得的回归方程的可信度进行检验。

(3)判断自变量 \small X_{1},X_{2},...,X_{p} 对 \small Y 有无影响。 

(4)利用所求得的回归方程进行预测。


2. 一元线性回归

一元线性回归只考虑一个因变量 \small Y 与一个自变量 \small X 之间的关系。

2.1 数学模型

假设有一组数据 (x_{i},y_{i})i=1,2,...,n

X 为横坐标, Y 为纵坐标,将数据对 (x_{i},y_{i}) 在 X-Y 坐标中画出散点图。

我们会发现,数据点在一条直线的附近,于是我们可以假设 Y 与 X 是线性关系,这些点与直线的偏离由一些不确定因素造成。

即假设:Y=\theta _{0}+\theta _{1}X+\varepsilon

上式中,\theta _{0}+\theta _{1}X 表示 Y 随 X 的变化而线性变化的部分; \varepsilon 是随机误差,是其他一切不确定因素影响的总和,其值不可观测,通常假定 \varepsilon\sim N(0,\sigma ^{2} )

  • 称函数 f(X)=\theta _{0}+\theta _{1}X 为一元线性回归函数
  • \theta _{0} 为回归常数\theta _{1} 为回归系数,统称回归参数
  • 称 X回归自变量(或回归因子)
  • Y 为回归因变量(或响应变量)

(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n}) 是 (X,Y) 的一组观测值,则一元线性回归模型可表示为:

y_{i}=\theta_{0}+\theta_{1}x_{i}+\varepsilon _{i} , i=1,2,...,n    

 其中 E(\varepsilon _{i})=0Var(\varepsilon _{i})=\sigma^{2}i=1,2,...,n

2.2 回归参数的估计

求解思路:求出未知参数 \theta_{0},\theta_{1} 的估计  \hat{\theta}_{0},\hat{\theta}_{1} 的一种直观想法,是使得点 (x_{i},y_{i}) 与直线上的点 (x_{i},\hat{y}_{i}) 的偏离越小越好。这里的 \hat{y}_{i}=\hat{\theta}_{0}+\hat{\theta}_{1}x_{i},称为回归值拟合值

使用方法最小二乘法

  J(\theta_{0},\theta_{1})=\sum_{i=1}^{n}(y_{i}-(\theta_{0}+\theta_{1}x_{i}))^2

函数用来描述真实值和预测值之间的差距。

  • 通过使误差平方和达到最小的方式来寻求估计值的方法,叫做最小二乘法
  • 用最小二乘法得到的估计,叫做最小二乘估计

J(\theta_{0},\theta_{1}) 是凸函数,令其求导并等于零可得极值。计算可得

\hat\theta_{1}=\frac{\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{\sum_{i=1}^{n}(x_{i}-\bar{x})^2},     \hat\theta_{0}=\bar{y}-\hat\theta_{1}\bar{x}

    其中

\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i}   ,   \bar{y}=\frac{1}{n}\sum_{i=1}^{n}y_{i}

2.3 模型拟合优度

拟合优度检验是对回归模型拟合效果的检验。

回归平方和:

   SSR=\sum_{i=1}^{n}(\hat{y_{i}}-\bar{y})^{2}

残差平方和:

  SSE=\sum_{i=1}^{n}(\hat{y_{i}}-y)^{2}

总平方和:

 SST=SSR+SSE=\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}

可决系数:

 R^{2}=\frac{SSR}{SST}

可决系数是评价回归模型拟合程度的重要指标,它表示了模型的总离差中可解释部分所占的比例。可决系数介于0和1之间,值越高,模型拟合效果越好。一般认为超过0.8的模型拟合优度比较高。


3、线性相关系数

在回归参数的估计公式中,我们假设了 Y 与 X 是存在线性相关的关系的,但如果不存在这种关系,那么求得的回归方程毫无意义。

线性相关系数是用于衡量两个随机变量之间线性相关程度的指标

总体的线性相关系数:

\rho_{X,Y}=corr(X,Y)=\frac{cov(X,Y)}{\sigma_{X}\sigma_{Y}}=\frac{E[(X-\mu_{X})(Y-\mu_{Y})]}{\sigma_{X}\sigma_{Y}}

样本的线性相关系数:

r_{x,y}=\frac{\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{\sqrt{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}}}

\rho _{XY} 取值在-1到1之间。

\rho _{XY}=0 时,称XY不相关

|\rho _{XY}|=1 时,称XY完全相关,此时,XY之间具有线性关系

|\rho _{XY}|<1 时,X 的变动引起 Y 的部分变动。\rho _{XY} 的绝对值越大,X 的变动引起 Y 的变动就越大。一般情况下,|\rho _{XY}|>0.8 时称为高度线性相关

 注意:相关性不等同于因果性。


4、多元线性回归分析

4.1 数学模型

设变量 Y 与变量 X_{1},X_{2},...,X_{p} 间有线性关系

Y=\theta_{0}+\theta_{1}X_{1}+...+\theta_{p}X_{p}+\varepsilon

其中,\varepsilon \sim N(0,\sigma^{2})\theta_{0},\theta_{1},...,\theta_{p} 和 \sigma^{2} 是未知参数,p\geqslant 2

称上述模型为多元线性回归模型

(x_{i1},x_{i2},...,x_{ip},y_{i}), i=1,2,...,n(X_{1},X_{2},...,X_{p},Y)的 n 次独立观测值。

则多元线性模型可表示为 y_{i}=\theta_{0}+\theta_{1}x_{i1}+...+\theta_{p}x_{ip}+\varepsilon_{i}i=1,2,...,n

其中 \varepsilon \sim N(0,\sigma^{2}) ,且独立同分布。

为书写方便,常采用矩阵形式,令

Y=\begin{bmatrix}y_{1} \\ y_{2} \\ \vdots \\y_{n} \end{bmatrix}\theta=\begin{bmatrix}\theta_{1} \\ \theta_{2} \\ \vdots \\\theta_{n} \end{bmatrix}X=\begin{bmatrix} 1 & x_{11} & x_{12} & \cdots & x_{1p} \\ 1 & x_{21} & x_{22} & \cdots &x_{2p} \\ \vdots & \vdots & \vdots & & \vdots \\ 1 & x_{n1} &x_{n2} & \cdots& x_{np} \end{bmatrix}\varepsilon =\begin{bmatrix}\varepsilon _{1} \\ \varepsilon _{2} \\ \vdots \\\varepsilon _{n} \end{bmatrix}

则多元线性模型可表示为

Y=X\theta+\varepsilon

其中 Y 是由响应变量构成的 n 维向量,Xn\times (p+1) 阶设计矩阵, \theta 是 p+1 维向量, \varepsilon 是 n 维向量,且满足 E(\varepsilon )=0,Var(\varepsilon)=\sigma^{2}I_{n}

4.2 回归系数的估计

求参数 \theta 的估计值 \hat\theta,就是求最小二乘函数 J(\theta)=(y-X\theta)^{T}(y-X\theta) 达到最小的 \theta 值。

计算可得:

\hat\theta=(X^{T}X)^{-1}X^{T}y

\hat{Y}=\hat\theta_{0}+\hat\theta_{1}X_{1}+...+\hat\theta_{p}X_{p}

4.3 模型拟合优度

一元线性回归模型的可决系数在计算时,自变量数目越多,残差平方和越小,拟合优度就会越高。这导致了:要想使得模型拟合得好,只要增加解释变量的数目即可。

这样做的结果会拓宽点估计或均值估计的置信区间,从而增大预测或估计的误差。

为此,应修正可决系数的算法,剔除解释变量数目变动对 R^{2} 的影响。

修正可决系数算法的思路是:将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响。

因此,多元线性回归模型在衡量模型的拟合优度时,采用修正的可决系数进行评判:

\bar{R}^{2}=1-\frac{n-1}{n-p}(1-R^{2})

其中,p 为自变量个数,n 为样本数据的个数。

R^{2}=\frac{SSR}{SST}SSR=\sum_{i=1}^{n}(\hat{y}-\bar{y})^{2}SST=\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}

\bar{R}^{2} 越高,模型拟合效果越好。

  • 3
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值