回归分析:一元线性回归模型 白话解析与案例实现

线性学习

回归分析是研究自变量x与因变量y的关系的方法。
生活中经常会有类似的关系,例如工龄与工资的关系、房屋面积与价格的关系等等。

一元线性回归模型

只是涉及一个自变量的关系,可以用一元线性方程来表示:

y = a x + b y=ax+b y=ax+b

从统计的角度来观察,生活实际案例中的样本点存在随机扰动 ϵ \epsilon ϵ,所以会有一定的偏差。因此一元线性回归模型可以表示为:

y = β 1 x + β 0 + ϵ y=\beta1x+\beta0 +\epsilon y=β1x+β0+ϵ

此时, β 1 、 β 2 \beta1、\beta2 β1β2都是未知的,随机扰动项 ϵ \epsilon ϵ也是未知的。

我们想要用统计学方法估计出真实的、不可观测的一元线性回归模型,利用样本数据估计出 β 1 , β 0 \beta1,\beta0 β1,β0 ,将它们的估计值记为 β ^ 1 , β ^ 0 \hat{\beta}1,\hat{\beta}0 β^1,β^0,由此得出的相应的y的估计值为$ \hat{y}$,用经验回归方程表示:

$ \hat{y}=\hat{\beta}1 x+\hat{\beta}0 $

以下列散点图为例,我们先找到一个线性回归方程,尽可能更好的去拟合这些样本点,即:尽可能找到误差最小的方程去表示这个一元线性回归模型。这个过程我们可以使用最小二乘估计,也可以使用极大似然估计等。
在这里插入图片描述

一元线性回归模型python的实现过程

我们以方程y=0.1x+0.5为依据,加入噪声,生成了100个随机样本,经过估计得到一元线性回归模型参数如下

  • 归方程的斜率为: [[0.09154158]]
  • 回归方程的截距为: [0.5006561]
  • 回归方程为:y = [[0.09154158]] *x + ( [0.5006561] )
import numpy as np
import pandas as pd
import  matplotlib.pyplot as plt #类似 MATLAB 中绘图函数的相关函数

#设置随机数种子,便于二次实验复现
np.random.seed(1)
count=100
data=[]
for i in range(count):
    x1=np.random.normal(0.00,0.55)
    y1=x1*0.1+0.5+np.random.normal(0.00,0.03)
    data.append([x1,y1])

data =pd.DataFrame(data)

x_data=np.array(data[0])
y_data=np.array(data[1])

#绘制散点图
plt.scatter(x_data,y_data,c='r')
plt.show()

from sklearn.linear_model import LinearRegression
regr = LinearRegression()

x_data=x_data.reshape(-1,1)
y_data=y_data.reshape(-1,1)
#拟合方程
regr.fit(x_data,y_data)

#可视化
plt.scatter(x_data,y_data,c='r')
plt.plot(x_data,regr.predict(x_data),color='black')
plt.show()

  • 3
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
一元线性回归是SPSS中常用的统计分析方法之一。它用于研究自变量与因变量之间的线性关系,并通过回归方程描述这种关系。下面以某医院的病人年龄和其住院天数为例进行一元线性回归分析。 首先,我们收集了100位病人的数据,其中自变量是病人的年龄,因变量是病人的住院天数。我们将这些数据输入SPSS软件进行分析。 在SPSS软件中,首先选择"回归",然后选择"线性",将因变量(住院天数)拖放到"因变量"栏中,将自变量(年龄)拖放到"解释变量"栏中。 在回归分析结果中,我们关注回归方程的系数、显著性和决定系数R^2。 回归方程的系数是关键指标之一,它告诉我们自变量(年龄)对因变量(住院天数)的影响程度。如果系数为正数,则表示自变量的增加与因变量的增加有正相关关系;如果系数为负数,则表示自变量的增加与因变量的减少有负相关关系。通过系数的大小,我们可以判断自变量对因变量的影响强弱。 显著性水平是判断系数是否统计上显著的指标。在假设检验中,一般认为当p值小于0.05时,系数是显著的,即存在影响关系;当p值大于0.05时,系数是不显著的,即没有影响关系。 决定系数R^2可以解释回归方程的拟合程度,其取值范围在0到1之间。R^2的值越接近1,说明回归方程可以更好地解释因变量的变异;R^2的值越接近0,说明回归方程对因变量的解释能力较弱。 通过分析回归方程的系数、显著性和决定系数R^2,我们可以得出结论:病人的年龄对住院天数有显著影响,且年龄与住院天数呈正相关关系。这些可以为医院制定合理的住院时间和医疗方案提供科学依据。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值