数学建模之回归分析

王的傲骨

已于 2023-04-24 11:20:29 修改

阅读量2k

点赞数

分类专栏：数学建模文章标签：回归机器学习算法

于 2023-04-24 11:08:51 首次发布

本文链接：https://blog.csdn.net/weixin_45876289/article/details/130337937

版权

数学建模专栏收录该内容

16 篇文章 1 订阅

订阅专栏

回归分析

回归分析是指的是建立两个或两个以上变量间相互依赖量化关系的一种统计分析方法。

回归分析是一种预测性的建模技术, 它研究的是因变量(结果)和自变量（原因）之间的数量化关系。

回归分析按照涉及的变量的多少，分为一元回归和多元回归分析; 按照因变量的多少，可分为简单回归分析和多重回归分析。

按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。

1.分析目的

线性回归通常是在学习预测模型时首选的技术之一。在这种技术中, 因变量是连续的, 自变量可以是连续的也可以是离散的, 回归线的性质是线性的。

线性回归寻求最佳的拟合直线(也就是回归线)在因变量(Y)与一个或多个自变量(X)之间建立一种关系。

2.主要解决的问题：

1、确定变量之间是否存在相关关系, 若存在, 则找出数学表达式;

2、进行预测或控制, 且估计这种预测或控制的精度。

步骤如下：

1、根据自变量与因变量的现有数据以及关系, 设定回归模型;

2、求出合理的回归系数;

3、进行检验, 残差分析, 共线性诊断等;

4、在符合要求后, 即可根据已得的回归方程进行预测, 并计算预测值的置信区间等。

多元线性回归模型

一个因变量与多个解释变量之间的相关关系是线性的回归模型。

假设多项式：

其中ε为随机误差，表示模型中不能体现出来的部分。还需要知道数据之间是独立的。知道自变量的值，可以把y的期望估计出来：

1. 多元回归分析解决的主要问题

参数估计、假设检验、预测。

2.回归系数的最小二乘估计

对于多项式里β 是未知的，所以使

达到最小

通过解方程组：

得到：

参数的最大似然估计：

对模型的回归系数评估依据偏差平方和进行分解

总平方和（SST）=回归平方和（SSR）+残差平方和（SSRes）

可以得到Y的估计多项式：

把s的值代入得到的估计。

1. 回归方程的拟合优度

决定系数（判定系数法）

反映y的变化由x解释的比例，回归直线与样本观测值的拟合优度，取值范围在[0,1]之间。

→1，说明y的变化大部分由回归方程解释性好,拟合优度好, →0, 拟合优度差。

1、反映实际观察值在回归直线周围的分散状况;

2、说明了回归直线的拟合程度 (衡量回归方程的代表性, 测定回归估计的精度）。越大表示回归效果差，越小表示回归效果好。

1. 回归方程的显著性检验（F检验）

原假设表示所有的自变量对因变量都没有线性预测效果，备择假设有至少有一个预测效果。

当（p，n-p-1）时，拒绝原假设

1. 回归系数的显著性检验

检验每个自变量与y之间的线性关系是否显著

H0:βj=0

原假设表示自变量与因变量之间没有线性关系，检验统计量服从t分布。

1. 残差分析

残差：

1、度量了数据和拟合值间的偏离

2、反映了反映变量中不能由回归模型解释的部分

3、残差分析就是通过残差所提供的信息, 分析模型的假定正确与否的方法。

目的：检验模型的正态性假设，例P-P图，Q-Q图。

1. 预测

1、

2、

例题

1、为全面反映中国人口出生率，选择 “人口自然增长率" 作为因变量, 以反映中国人口的增长; 选择 “国名收入" 及 “人均GDP” 作为经济增长的代表; 选择 “居民消费价格指数增长率” 作为居民消费水平的代表。暂不考虑文化程度及人口分布的影响。

1.	clear;clc
2.	data = xlsread('工2.19.xlsx','B3:E20');
3.	n =length(data);
4.	x = data(:,2:4);
5.	y = data(:,1);
6.	X = [ones(n,1),x];
7.	[b,bint,r,rint,stats] = regress(y,X);
8.	b,bint,stats,

通过观察stats数据可以得出至少有一个变量和y之间的关系是显著的。通过也可以得出在x1，x2，x3中至少有一个自变量与y的关系是显著的。

观察bint数据得到x2的数据的p值大于0.05，说明x2与y的关系不显著，我们把它在模型中剔除x2。

相应的程序部分也要改变，得到的数据如下：

1.	b = 3×1      
2.	   15.9372  
3.	    0.0003  
4.	   -0.0053  
5.	bint = 3×2      
6.	   14.3429   17.5316  
7.	    0.0001    0.0006  
8.	   -0.0085   -0.0022  
9.	stats = 1×4      
10.	    0.9228   89.6344    0.0000    0.8064

结论：x1，x3与y的关系都显著

得到最终的回归多项式：

例2 某科学基金会希望估计从事某研究学者的年薪y与研究成果的质量指标，从事研究工作时间、能成功获得资助的指标之间的关系。

1.	clear;clc  
2.	data = xlsread('工2.20.xlsx','A2:D25');  
3.	n = length(data);  
4.	y = data(:,1);  
5.	x1 = data(:,2);  
6.	x2 = data(:,3);  
7.	x3 = data(:,4);  
8.	subplot(1,3,1);plot(x1,y,'*');  
9.	title('y与x1的散点图');  
10.	subplot(1,3,2);plot(x2,y,'+');  
11.	title('y与x2的散点图');  
12.	subplot(1,3,3);plot(x3,y,'o');  
13.	title('y与x3的散点图')  
14.	A = [x1,x2,x3];  
15.	a = ones(24,1);  
16.	X = [a,A];  
17.	[b,bint,r,rint,stats] = regress(y,X);  
18.	subplot(1,1,1);  
19.	rcoplot(r,rint);

运行后得到以下数据：

1.	b = 4×1      
2.	   16.7948  
3.	    1.2004  
4.	    0.3207  
5.	    1.3933  
6.	  
7.	bint = 4×2      
8.	   12.5350   21.0546  
9.	    0.5240    1.8768  
10.	    0.2433    0.3981  
11.	    0.7708    2.0159  
12.	  
13.	stats = 1×4      
14.	    0.9106   67.9028    0.0000    3.0726

观察数据得到回归系数b=（16.7948,1.2004,0.3207,1.3933）及其置信区间，且置信区间不包括原点和统计变量stats，包括四个检验统计量：相关系数的平方R2 ，假设检验统计量F，p值，误差方差的估计分别为：