数学建模：线性回归模型

最新推荐文章于 2025-03-24 21:04:48 发布

Blanche117

最新推荐文章于 2025-03-24 21:04:48 发布

阅读量9.9k

点赞数 10

分类专栏：数学建模文章标签：机器学习数学建模算法回归分析

本文链接：https://blog.csdn.net/weixin_45745854/article/details/119238456

版权

数学建模专栏收录该内容

12 篇文章

订阅专栏

数学建模：线性回归模型

1.多重线性回归模型

1.1 引入

线性回归分类

简单线性回归（一个自变量）
多重线性回归（多个自变量）

线性回归的前提条件：

线性（散点图，散点图矩阵）
独立性
正态性（回归分析过程中可以确定）
方差齐性（回归分析过程中可以确定）：建模中存在的误差

两个变量：X和Y

例1：人体的身高和体重

X：人体的身高

Y：人体的体重

身高X大时，体重Y也会倾向于增大，但是X不能严格地决定Y

1.2相关关系

相关关系：自变量的取值一定时，因变量的取值带有一定的随机性的两个变量之间的关系。

相关关系是一种非确定关系。对具有相关关系的两个变量进行统计分析的方法称为回归分析。

1.3经验回归方程

X：自变量或者预报变量

Y：因变量或者响应变量
$Y\begin{cases} X能够决定的部分f(x)\\ 其他未考虑的因素e：误差 \end{cases}$
则得到下面的模型：
$0\\ 特别的，当f(X) = \beta_0+\beta_1X时是线性函数\\ \beta_0和\beta_1都称作回归系数$

第一步：确定模型
第二步：观测模型

于是有n组观测值(xi , yi )，如果Y与X 满足回归系数时，则(xi , yi )满足：
$y_i = \beta_0+\beta_1x_i+e_i，\qquad i=1,2,...,n$

第三步：确定未知参数值

根据第二步得到的方程组，应用用统计方法，可以得到 $\beta_0$ 和 $\beta_1$ 的估计值 $\hat\beta_0$ 和 $\hat\beta_1$
第四步：求得经验方程

将估计值 $\hat\beta_0$ 和 $\hat\beta_1$ 带入线性回归方程，略去误差项：
$\hat\beta_0+\hat\beta_1X$
称为经验回归方程

1.4多元线性模型

多元线性回归的一般形式：
$\beta_0+\beta_1 x+...++\beta_{p-1} x+e_i$
同样 $\beta_0$ 为常数项，$\beta_1,…,\beta_{p-1} $为回归系数，$ e$为随机误差.

观测数据

多元线性模型就是有多个未知数 $\beta$
$y=\begin{bmatrix}y_1\\y_2\\\vdots \\y_n\end{bmatrix},X=\begin{bmatrix}1&x_{11}&\cdots&x_{1,p-1}\\1&x_{21}&\cdots&x_{2,p-1}\\\vdots&\vdots&\vdots&\vdots\\1&x_{n1}&\cdots&x_{n,p-1}\end{bmatrix},\beta=\begin{bmatrix}\beta_0\\\beta_1\\\vdots \\\beta_{p-1}\end{bmatrix},e=\begin{bmatrix}e_1\\e_2\\\vdots \\e_n\end{bmatrix}$
确定回归系数
求经验回归方程

设 $\hat\beta = (\hat\beta_0,\hat\beta_1,\cdots,\hat\beta_{p-1})'$ 为 $\beta$ 的一种估计，则经验方程是：
$\hat\beta_0+\hat\beta_1X_1+\cdots+\hat\beta_{p-1}X_{p-1}$

1.5 非线性模型

非线性模型经过适当变换，转换为线性模型：比如两边取对数
$\ln\limits Q_t=\ln\limits a+b\ln\limits L_t+c\ln\limits K_t$
令
$y_t = \ln\limits Q_t;x_{t1} = \ln\limits L_t,\beta_0 = \ln\limits a,\beta_1 = b,\beta_2 = c$

加上误差项即是线性关系

2.参数估计（最小二乘法）

在高等数学中有最小二乘法的介绍。简单地说就是要通过确定一系列的系数 $\beta$ ，使所有情况下的误差最小，即：
$|y-X\beta|$
的值最小。由于绝对值不好处理，这里转化成平方形式：
$(y-X\beta)^2$
上式展开，对 $\beta$ 求偏导，使其为0，得到线性方程组，解出 $\beta_i$ 即可，这一组 $\beta$ 即是估计出的参数值。即是通过这一步最终得到了经验方程：
$\hat Y = \hat\beta_0+\hat\beta_1 X_1+\cdots+\hat\beta_{p-1}X_{p-1}$
上述方程还需要进一步做统计分析，来确定是否，描述了因变量与自变量的真实关系。

另外，进行线性回归之前，为了消除量纲等因素的影响，我们通常会对数据进行预处理。预处理有

中心化
标准化

3.回归方程假设检验

但是经验回归方程是否真正刻画了因变量与自变量之间的关系？——回归方程的显著性检验

因变量和所有自变量之间是否存在显著的关系？——回归系数的显著性检验

异常点检验

3.1回归方程的显著性检验

正态线性回归模型：
$y_i = \hat\beta_0+\hat\beta_1 x_{i1}+\cdots+\hat\beta_{p-1}x_{i,p-1}+e_i\\ e_i——N(0,\sigma^2),i = 1,\cdots,n$
经验方程是否正确刻画因变量与自变量之间的关系需要进行回归方程的显著性检验：
假设检验：所有回归系数都为0，即 $H:\beta_1 = \beta_2 = ,...,=\beta_{p-1} = 0$

拒绝原假设：至少有一个 $\beta_i$ 不等于0

接受原假设：所有的 $\beta_i$ 都等于0，相对误差而言，所有自变量对因变量Y 的影响是不重要的。

显著性检验

设 $m = p - 1$ ，检验假设H： $\beta_1 = \cdots=\beta_{p-1} = 0$ 的统计量为：
$F_回 = \frac{{SS_回}/{p-1}}{{RSS}/{n-p}}$
当原假设成立时， $F_回$ ~ $F_{p-1,n-p}$

对于某一置信度 $\alpha$ ， $F_回>F_{p-1,n-p}(\alpha)$ 时，拒绝原假设，否则就接受H
回归系数的显著性检验
异常点检验

4.衡量多重回归模型优劣的标准

4.1判定系数

$SSE+SSR\begin{cases}SST = \sum\limits_{i=1}^{n}(y_i-\overline y)^2\\ SSE = \sum\limits_{i=1}^{n}(y_i-\hat y_i)^2\\ SSR = \sum\limits_{i=1}^{n}(\hat y_i-\overline y)^2\\\end{cases}$