数学建模:线性回归模型

数学建模:线性回归模型

1.多重线性回归模型

1.1 引入

线性回归分类

  • 简单线性回归(一个自变量)
  • 多重线性回归(多个自变量)

线性回归的前提条件:

  • 线性(散点图,散点图矩阵)
  • 独立性
  • 正态性(回归分析过程中可以确定)
  • 方差齐性(回归分析过程中可以确定):建模中存在的误差

两个变量:X和Y

例1:人体的身高和体重

X:人体的身高

Y:人体的体重

身高X大时,体重Y也会倾向于增大,但是X不能严格地决定Y

1.2相关关系

相关关系:自变量的取值一定时,因变量的取值带有一定的随机性的两个变量之间的关系。

相关关系是一种非确定关系。对具有相关关系的两个变量进行统计分析的方法称为回归分析。

1.3经验回归方程

X:自变量或者预报变量

Y:因变量或者响应变量
Y { X 能 够 决 定 的 部 分 f ( x ) 其 他 未 考 虑 的 因 素 e : 误 差 Y\begin{cases} X能够决定的部分f(x)\\ 其他未考虑的因素e:误差 \end{cases} Y{Xf(x)e
​ 则得到下面的模型:
Y = f ( x ) + e , E ( e ) = 0 特 别 的 , 当 f ( X ) = β 0 + β 1 X 时 是 线 性 函 数 β 0 和 β 1 都 称 作 回 归 系 数 Y = f(x) + e,E(e) = 0\\ 特别的,当f(X) = \beta_0+\beta_1X时是线性函数\\ \beta_0和\beta_1都称作回归系数 Y=f(x)+e,E(e)=0f(X)=β0+β1X线β0β1

  • 第一步:确定模型
  • 第二步:观测模型

image-20210729094728457

于是有n组观测值(xi , yi ),如果Y与X 满足回归系数时,则(xi , yi )满足:
y i = β 0 + β 1 x i + e i , i = 1 , 2 , . . . , n y_i = \beta_0+\beta_1x_i+e_i,\qquad i=1,2,...,n yi=β0+β1xi+eii=1,2,...,n

  • 第三步:确定未知参数值

    根据第二步得到的方程组,应用用统计方法,可以得到 β 0 \beta_0 β0 β 1 \beta_1 β1的估计值 β ^ 0 \hat\beta_0 β^0 β ^ 1 \hat\beta_1 β^1

  • 第四步:求得经验方程

    将估计值 β ^ 0 \hat\beta_0 β^0 β ^ 1 \hat\beta_1 β^1带入线性回归方程,略去误差项:
    Y = β ^ 0 + β ^ 1 X Y = \hat\beta_0+\hat\beta_1X Y=β^0+β^1X
    称为经验回归方程

1.4多元线性模型

多元线性回归的一般形式:
Y = β 0 + β 1 x + . . . + + β p − 1 x + e i Y = \beta_0+\beta_1 x+...++\beta_{p-1} x+e_i Y=β0+β1x+...++βp1x+ei
同样 β 0 \beta_0 β0为常数项,$\beta_1,…,\beta_{p-1} 为 回 归 系 数 , 为回归系数, e$为随机误差.

  • 观测数据

    多元线性模型就是有多个未知数 β \beta β
    y = [ y 1 y 2 ⋮ y n ] , X = [ 1 x 11 ⋯ x 1 , p − 1 1 x 21 ⋯ x 2 , p − 1 ⋮ ⋮ ⋮ ⋮ 1 x n 1 ⋯ x n , p − 1 ] , β = [ β 0 β 1 ⋮ β p − 1 ] , e = [ e 1 e 2 ⋮ e n ] y=\begin{bmatrix}y_1\\y_2\\\vdots \\y_n\end{bmatrix},X=\begin{bmatrix}1&x_{11}&\cdots&x_{1,p-1}\\1&x_{21}&\cdots&x_{2,p-1}\\\vdots&\vdots&\vdots&\vdots\\1&x_{n1}&\cdots&x_{n,p-1}\end{bmatrix},\beta=\begin{bmatrix}\beta_0\\\beta_1\\\vdots \\\beta_{p-1}\end{bmatrix},e=\begin{bmatrix}e_1\\e_2\\\vdots \\e_n\end{bmatrix} y=y1y2yn,X=111x11x21xn1x1,p1x2,p1xn,p1,β=β0β1βp1,e=e1e2en

  • 确定回归系数

  • 求经验回归方程

β ^ = ( β ^ 0 , β ^ 1 , ⋯   , β ^ p − 1 ) ′ \hat\beta = (\hat\beta_0,\hat\beta_1,\cdots,\hat\beta_{p-1})' β^=(β^0,β^1,,β^p1) β \beta β的一种估计,则经验方程是:
Y = β ^ 0 + β ^ 1 X 1 + ⋯ + β ^ p − 1 X p − 1 Y= \hat\beta_0+\hat\beta_1X_1+\cdots+\hat\beta_{p-1}X_{p-1} Y=β^0+β^1X1++β^p1Xp1

1.5 非线性模型

非线性模型经过适当变换,转换为线性模型:比如两边取对数
ln ⁡ Q t = ln ⁡ a + b ln ⁡ L t + c ln ⁡ K t \ln\limits Q_t=\ln\limits a+b\ln\limits L_t+c\ln\limits K_t lnQt=lna+blnLt+clnKt

y t = ln ⁡ Q t ; x t 1 = ln ⁡ L t , β 0 = ln ⁡ a , β 1 = b , β 2 = c y_t = \ln\limits Q_t;x_{t1} = \ln\limits L_t,\beta_0 = \ln\limits a,\beta_1 = b,\beta_2 = c yt=lnQt;xt1=lnLt,β0=lna,β1=b,β2=c

加上误差项即是线性关系

2.参数估计(最小二乘法)

在高等数学中有最小二乘法的介绍。简单地说就是要通过确定一系列的系数 β \beta β,使所有情况下的误差最小,即:
e = ∣ y − X β ∣ e = |y-X\beta| e=yXβ
的值最小。由于绝对值不好处理,这里转化成平方形式:
e = ( y − X β ) 2 e = (y-X\beta)^2 e=(yXβ)2
上式展开,对 β \beta β求偏导,使其为0,得到线性方程组,解出 β i \beta_i βi即可,这一组 β \beta β即是估计出的参数值。即是通过这一步最终得到了经验方程:
Y ^ = β ^ 0 + β ^ 1 X 1 + ⋯ + β ^ p − 1 X p − 1 \hat Y = \hat\beta_0+\hat\beta_1 X_1+\cdots+\hat\beta_{p-1}X_{p-1} Y^=β^0+β^1X1++β^p1Xp1
上述方程还需要进一步做统计分析,来确定是否, 描述了因变量与自变量的真实关系。

另外,进行线性回归之前,为了消除量纲等因素的影响,我们通常会对数据进行预处理。预处理有

  • 中心化
  • 标准化

3.回归方程假设检验

但是经验回归方程是否真正刻画了因变量与自 变量之间的关系?——回归方程的显著性检验

因变量和所有自变量之间是否存在显著的关系?——回归系数的显著性检验

异常点检验

3.1回归方程的显著性检验

正态线性回归模型:
y i = β ^ 0 + β ^ 1 x i 1 + ⋯ + β ^ p − 1 x i , p − 1 + e i e i — — N ( 0 , σ 2 ) , i = 1 , ⋯   , n y_i = \hat\beta_0+\hat\beta_1 x_{i1}+\cdots+\hat\beta_{p-1}x_{i,p-1}+e_i\\ e_i——N(0,\sigma^2),i = 1,\cdots,n yi=β^0+β^1xi1++β^p1xi,p1+eieiN(0,σ2),i=1,,n
经验方程是否正确刻画因变量与自变量之间的关系需要进行回归方程的显著性检验:
假设检验:所有回归系数都为0,即 H : β 1 = β 2 = , . . . , = β p − 1 = 0 H:\beta_1 = \beta_2 = ,...,=\beta_{p-1} = 0 H:β1=β2=,...,=βp1=0

拒绝原假设:至少有一个 β i \beta_i βi不等于0

接受原假设:所有的 β i \beta_i βi都等于0,相对误差而言,所有自变量对因变量Y 的影响是不重要的。

  • 显著性检验

    m = p − 1 m = p-1 m=p1,检验假设H: β 1 = ⋯ = β p − 1 = 0 \beta_1 = \cdots=\beta_{p-1} = 0 β1==βp1=0的统计量为:
    F 回 = S S 回 / p − 1 R S S / n − p F_回 = \frac{{SS_回}/{p-1}}{{RSS}/{n-p}} F=RSS/npSS/p1
    当原假设成立时, F 回 F_回 F~ F p − 1 , n − p F_{p-1,n-p} Fp1,np

    对于某一置信度 α \alpha α F 回 > F p − 1 , n − p ( α ) F_回>F_{p-1,n-p}(\alpha) F>Fp1,np(α)时,拒绝原假设,否则就接受H

    image-20210730091549617

  • 回归系数的显著性检验

  • 异常点检验

4.衡量多重回归模型优劣的标准

4.1判定系数

S S T = S S E + S S R { S S T = ∑ i = 1 n ( y i − y ‾ ) 2 S S E = ∑ i = 1 n ( y i − y ^ i ) 2 S S R = ∑ i = 1 n ( y ^ i − y ‾ ) 2 SST = SSE+SSR\begin{cases}SST = \sum\limits_{i=1}^{n}(y_i-\overline y)^2\\ SSE = \sum\limits_{i=1}^{n}(y_i-\hat y_i)^2\\ SSR = \sum\limits_{i=1}^{n}(\hat y_i-\overline y)^2\\\end{cases} SST=SSE+SSRSST=i=1n(yiy)2SSE=i=1n(yiy^i)2SSR=i=1n(y^iy)2

另外我们定义了 R 2 R^2 R2
R 2 = S S R S S T , 0 ≤ R 2 ≤ 1 R^2 = \frac{SSR}{SST},0≤R^2≤1 R2=SSTSSR0R21
R 2 R^2 R2越接近1,表示X和Y有较大的相依关系

image-20210730083123472 image-20210730083148081

5.回归自变量的选择

6.多重复共线性判断

一些大型线性回归问题(自变量较多),最小二乘估计有时表现不理想 :

  • 有些回归系数的绝对值异常大
  • 回归系数的符号与实际意义相违背

复共线性:回归自变量之间存在着近似线性关系。

复共线性严重程度的判断

①方阵 X ′ X X'X XX条件数:最大特征值与最小特征值的比值
k = λ 1 λ p k=\frac{\lambda_1}{\lambda_p} k=λpλ1
有下面的判断标准:

image-20210730093118643

②方差膨胀因子

方差膨胀因子 𝐕𝐚𝐫𝐢𝐚𝐧𝐜𝐞 𝐈𝐧𝐟𝐥𝐚𝐭𝐢𝐨𝐧 𝐅𝐚𝐜𝐭𝐨𝐫, 𝐕𝐈𝐅 : 𝑽𝑰𝑭越大,表示共线性越严重。 𝑽𝑰𝑭一般不应该大于𝟓, 当𝑽𝑰𝑭>𝟏𝟎时,提示有严重的多重共线性存在

  • 解决方案

(1) 增大样本含量,能部分解决复共线性问题。

(2) 把多种自变量筛选的方法结合起来组成拟合模型。建立一个 “最优”的逐步回归方程,但同时丢失一部分可利用的信息

(3) 从专业知识出发进行判断,去除专业上认为次要的,或者是 缺失值比较多、测量误差较大的共线性因子。

(4) 进行主成分分析,提取公因子代替原变量进行回归分析。

7.残差分析和回归诊断

7.1残差分析

目的:

  • 线性假设的检验
  • 所有水平的x的常数方差的检验
  • 正态分布的检验

残差图分析

  • 通过残差图判断正态性

残差: e ^ = y − X b ^ \hat e = y-X\hat b e^=yXb^,其中将$\hat e 称 为 残 差 ; 称为残差; ;\hat y = X\hat b , , \hat y_i$称为拟合值。

以残差为纵坐标,以任何其他的量为横坐标的散点图,称为残差图。

这里以拟合值 y ^ i \hat y_i y^i为横轴, r i r_i ri为纵轴的残差图,平面上的点应该落在宽度为4的水平带 − 2 ≤ r i ≤ 2 -2≤r_i≤2 2ri2的区域内,且不呈任何趋势。

image-20210730095236567

image-20210730095310071

,其中将$\hat e 称 为 残 差 ; 称为残差; ;\hat y = X\hat b , , \hat y_i$称为拟合值。

以残差为纵坐标,以任何其他的量为横坐标的散点图,称为残差图。

这里以拟合值 y ^ i \hat y_i y^i为横轴, r i r_i ri为纵轴的残差图,平面上的点应该落在宽度为4的水平带 − 2 ≤ r i ≤ 2 -2≤r_i≤2 2ri2的区域内,且不呈任何趋势。

[外链图片转存中…(img-TaQX83rE-1627610395779)]

[外链图片转存中…(img-8Xf0EFkx-1627610395781)]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Blanche117

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值