数学建模预测类—【一元线性回归】

每日格言:行动是治愈恐惧的良药,而犹豫拖延将不断滋养恐惧.


前言

在具体讲述线性回归的有关算法和解题思路时,我们会先讲一些有关回归分析的基础(建议大家可以看一下,理解一下原理)已经懂了的友友可以直接跳过~😏🙌


一、什么是回归分析?

1.概念理解

在统计学中,回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关
的一种统计分析方法。

在大数据分析中,回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。

总而言之,回归分析通常用于预测分析以及发现变量之间的因果关系(通俗来讲就是🤔:根据已有数据验证自变量和因变量之间的某种函数关系是正确的)


2.分类和一般步骤
  • 回归分析有两种分类方式:

 根据变量的数目可以分为一元回归、多元回归
 根据自变量与因变量的表现形式,分为线性和非线性

根据排列组合(2X2)也就是回归分析包括四个方向:

①一元线性回归分析、②多元线性回归分析、③一元非线性回归分析、④多元非线性回归分析


  • 回归分析的一般步骤

简要总结一下这张图就是:找到自变量(x)和因变量(y)建立回归方程,然后验证方程的可行性,最后再根据回归方程进行预测.下面我们用一元线性回归方程的例子具体讲一下整个过程

问题:人均收入是否会显著影响人均食品消费支出?

  •  确定解释变量(x)和被解释变量(y)

已知人均收入——x,人均食品消费支出——y

  • 确定回归模型建立回归方程

根据我们的常识我们可知,人均收入应该是和人均食品消费成正比,这里只涉及一个自变量,则一元线性回归模型可表示为:
𝑦 = 𝛽0 + 𝛽1x + 𝜖(误差)

(😶‍🌫️这里如何求相应的参数后面我们会细讲,这里就是了解一下流程~🫡)

  • 检验(不同的回归模型检验方法不同,这里就提一些会用到的指标)

我们通常使用以下几个标准来度量回归方程的可靠性(我们只要会用即可):

  • 估计标准误差越小,则数据点围绕回归直线的分散程度越小,回归方程的代表性越大,可靠性越高
  • 置信区间反映了参数估计的不确定性,如果一个参数的置信区间不包含零(对于斜率参数),则可以认为该参数对因变量有显著的影响
  • 而预测区间反映了预测值的不确定性,可以告诉我们预测值的可信度范围。
  • 判定系数(R^2):R^2越趋近于1,我们方程的拟合程度越好
  • 线性关系检验:计算检验统计量F,若𝐹 > 𝐹1−𝛼(1, 𝑛 − 2)(查表可得),拒绝𝐻0,否则接受𝐻0;(𝐻0(原假设):𝛽1 = 0,回归系数与0无显著差异,𝑦与x的线性关系不显著),所以拒绝H0说明y与x存在线性关系
  • 回归系数的显著性检验检验回归系数𝛽的值与0是否有显著性差异,若𝛽 ≠ 0,说明变量𝑌与𝑋之间存在显著的线性关系
  • 通过构造t统计量并计算p值,如果p值小于预设的显著性水平(例如0.05),则认为参数是显著的。
  • 预测

将所求回归方程和参数代入求解即可

二、一元线性回归(Matlab算法)

1.利用regress函数

𝑦 = 𝛽0 + 𝛽1x + 𝜖(误差)(一元线性回归方程模型) 

\left [ b,bint,r,rint,stats \right ] = regress\left ( Y,X,alpha \right )

1、输入变量:这里Y,X都是由样本数据构成的列向量;alpha——显著性水平,默认为0.05 ,一般不需要我们输入

2、输出变量:
𝑏— — 回归系数(β0,β1,···)
𝑏𝑖n𝑡— — 回归系数的区间估计
𝑟— — 残差
𝑟𝑖n𝑡— — 置信区间
stats— — 用于检验回归模型的统计量
stats有四个数值:决定系数R^2、𝐹值、与𝐹对应的概率𝑃、无偏估计𝜎^2

2、例题讲解

让我们预测身高为170的女生腿长可能为多少呢?

 

%一元线性回归
clear,clc
%1.输入数据
%输入X的样本值
x = [143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164]';
%插入β0对应列
X = [ones(16,1),x];
%输入Y的样本值
Y = [88,85,88,91,92,93,93,95,96,98,97,96,98,99,100,102]';

%2、回归分析及检验:
[b,bint,r,rint,stats]=regress(Y,X);
%输出我们需要的数据
%  β0=-16.0730,置信区间为[-33.7071,1.5612]
%  β1=0.7194,置信区间为[0.6047,0.8340]
%  R^2=0.9282  F=180.9531   p=0.0000    1.7437
%p就是接受回归模型的风险,即犯错的概率
% 由p<0.05,可知回归模型y=-16.0730+0.7194x 成立


%3、残差分析,作残差图
figure
rcoplot(r,rint);
%第二个值可视为异常值


%4、预测及作图
figure
y = b(1)+b(2)*x;
%比较真实值与估计值所作图像
plot(x,Y,'b+',x,y,'r');

这里我们作图后的图像大致为

由上图说明我们回归方程的建立是比较好的。

 


总结

完结撒花🎆🎆🎇🎇

通过本篇文章,我们深入探讨了回归分析中的关键概念,包括如何评估模型的拟合度、参数的显著性检验以及如何利用置信区间和预测区间进行预测分析。如果大家有任何疑问或需要进一步的帮助,请随时留言!

  • 21
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

自由的风.

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值