简易多元线性回归学习

本文介绍了如何进行多元线性回归分析,包括数据预处理、使用Excel和代码(Statsmodels, Sklearn)实现回归。通过分析某地区房价数据,探讨街区、面积、卧室、浴室和房屋风格对房价的影响,发现面积和浴室数量与房价关联性强。" 122766841,9722429,MySQL事务详解:特性与隔离级别,"['数据库', 'mysql', '事务处理']
摘要由CSDN通过智能技术生成

多元线性回归

多元线性回归是一般线性模型到多个自变量的概括,以及一般线性模型的特例,仅限于一个因变量。

一般线性模型(general linear model, multivariate regression model)是一个统计学上常见的线性模型。
其公式一般写为:
在这里插入图片描述
其中Y是一个包含反应变量的矩阵。X是一个包含独立自变量的设计矩阵。B是一个包含多个估计参数的矩阵。U 是一个包含误差和剩余项的矩阵。通常假设误差在测量之间是不相关的,并遵循多元正态分布。如果误差不遵循多元正态分布,则可以使用广义线性模型来放宽关于YU的假设。
一般线性模型包含许多不同的统计模型:ANOVA,ANCOVA,MANOVA,MANCOVA,普通线性回归,t检验和F检验。一般线性模型是对多于一个因变量的情况的多元线性回归的推广。如果YBU是列向量,则上面的矩阵方程将表示多元线性回归。
使用一般线性模型的假设检验可以通过两种方式进行:多变量或多个独立的单变量检验。在多变量测试中,Y的列一起测试,而在单变量测试中,Y列独立地测试,即作为具有相同设计矩阵的多个单变量测试。

在这里插入图片描述

意义:事物的联系也是多方面的,而影响事物发展的因素是多样的。由多个自变量的最优组合共同来估计因变量,比单一的自变量预测更有效,更符合实际。

一、问题分析

通过对某段时间某地区的已售房价数据进行线性回归分析,探索影响房价高低的主要因素,并对这些影响因素的影响程度进行分析,利用分析得到的数据,对未来房价的趋势和走向进行预测。
本文探究街区(neighborhood),房屋面积(area),卧室(bedrooms),浴室数(bathrooms),房屋风格(style)与 房价(price)的关系以及影响大小。

二、数据预处理(excel)

1.数据清洗

原始数据中,存在有房屋数据存在 没有卧室,没有浴室或房屋面积不合理等疑似错误数据。
在这里插入图片描述

筛选

image-20211102171253439

去掉bedroom为0

image-20211102171533022

bathroom同理

image-20211102171853421

将area值小于1000清洗

image-20211102174830424

2.数据全数值化

neighborhoodstyle为非数值型数据,需要转换成数值型数据进行回归分析。

-A,B,C -1,2,3

-ranch、victorian、lodge -10、20、30

替换A 为 1

image-20211102175737360

image-20211102175949809

B:

image-20211102182826359

C:

image-20211102183337841

ranch:

image-20211102203008226

victorian:

image-20211102203040969

lodge:

image-20211102203113639

三、使用EXcel回归

回归实现

方法

image-20211102203426654

房价(price)作为因变量其他变量作为自变量

image-20211102203611839

回归分析

结果

在这里插入图片描述

Multiple R:相关系数R,用来衡量自变量x与y之间的相关程度的大小。
R Square:决定系数R方,反映因变量的全部变异能通过回归关系被自变量解释的比例。可以通俗地理解为使用均值作为误差基准,看预测误差是否大于或者小于均值基准误差。

本次数据集回归分析得到的R =0.778,表明x和y之间的关系为高度相关。

本次数据集回归分析得到的R方 = 0.605,说明自变量能解释因变量的60.5%

自变量 含义 Coefficients(系数)
X Variable 1 街区(neighborhood) 9768.8665605825
X Variable 2 房屋面积(area) 345.152705630739
X Variable 3 卧室数(bedrooms) -1733.14723959822
X Variable 4 浴室数(bathrooms) 8112.15494579683
X Variable 5 房屋风格(style) -455.450901280214

回归方程为: y=9768.8x1+345.1x2-1733.1x3+8112.1x4-455.4x5-6497.0

由上可以看出房屋面积x2的P值远小于显著性水平0.05房屋面积(area)房价(price)相关。卧室数(bedrooms)浴室数(bathrooms)的P值远大于显著性水平0.05,说明这卧室数(bedrooms)浴室数(bathrooms)房价(price)相关性较弱。

四、使用代码实现回归

ⅠStatsmodels

1.数据处理

导入数据

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
df = pd.read_csv('house_prices.csv')
df.info(); df.head()

在这里插入图片描述

异常值处理

# 异常值处理
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值