一:背景介绍:
波士顿房价数据集包括多个样本,每个样本包括多个特征变量和该地区的平均房价。房价(单价)显然和多个特征变量相关,不是单变量线性回归(一元线性回归)问题;选择多个特征变量来建立线性方程,这就是多变量线性回归(多元线性回归)问题。
房价和多个特征变量相关,本案例尝试使用多元线性回归建模
多元线性回归:在回归分析中,如果有两个或两个以上的自变量
,就称为多元回归
。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效
,更符合实际。因此多元线性回归比一元线性回归的实用意义更大。
- 一元线性回归分析的数学模型为:y = a+bx+ε。
- 使用偏差平方和分别对参数a和参数b求偏导,可以得到线性模型的未知参数a、b的最小二乘估计值,其中,偏差平方和定义为∑(yi-a-bXi)2
二:数据数值的处理:
数据的几个问题:
1.数据缺失 (比如有的数据会自动变成0) 2.数据不一致 3.数据不规范等
修改错误的数据:选中数据,选中筛选,选中数字筛选,选中大于(0),完成数据的清洗操作
非数值型数据的转化:
三:EXCEL表格实行实现
1.删除非数据项,实现线性回归
2.选择数据-数据回归-勾选线性分析
更多-选项-加载项-转到-选中分析工具库
输出结果如图所示: