目录
一、概念
社会经济现象的变化往往受到多个因素的影响,因此,一般要进行多元回归分析,我们把包括两个或两个以上自变量的回归称为多元线性回归 。
多元线性回归的基本原理和基本计算过程与一元线性回归相同,但由于自变量个数多,计算相当麻烦,一般在实际中应用时都要借助统计软件。这里只介绍多元线性回归的一些基本问题。
多元线性回归与一元线性回归类似,可以用最小二乘法估计模型参数,也需对模型及模型参数进行统计检验 。
选择合适的自变量是正确进行多元回归预测的前提之一,多元回归模型自变量的选择可以利用变量之间的相关矩阵来解决。
二、Excel预测房价
删除不合理的数据,如:
将neighborhood移到最右边,便于选择X的数据,打开数据分析中的回归进行相关选择:
分析结果:
回归结果分析:
在图中的回归统计子表中,字段Multiple R代表复相关系数R,也就是R2的平方根,又称相关系数,用来衡量自变量x与y之间的相关程度的大小。本次数据集回归分析得到的
R=0.788654
,这表明x和y之间的关系为高度正相关。R Square是复测定系数,也就是相关系数R的平方。Adjusted R Square是调整后的复测定系数R2,该值为0.621974
,说明自变量能说明因变量y的62.20%,因变量y的38.8%要由其他因素来解释。标准误差用来衡量拟合程度的大小,也用于计算与回归相关的其它统计量,此值越小,说明拟合程度越好。观察值是用于估计回归方程的数据的观察值个数,本次数据集共有5414条数据,所以观察值为5414。
在图中的方差分析子表中,Significance F为F检验显著性统计量,它的P值为0,小于显著性水平0.05,故而能够确定该回归方程回归效果显著,且方程中至少有一个回归系数显著不为0。
设因变量price为y,自变量house_id为x1,自变量area为x2,自变量bedrooms为x3,自变量bathrooms为x4。在图中的第三张子表中,Coefficients为常数项和b1~b4的值,据此便可以估算得出回归方程为:
y= 344.1818x1+-1020.02x2+7997.111x3+ 4183.78
。但根据Coefficients估算出的回归方程可能存在较大的误差,在第三张子表中更为重要的一列是P-value列,P-value为回归系数t统计量的P值。由表中P-value的值可以发现,自变量area的P值远小于显著性水平0.05,因此这个自变量与y相关。其余自变量P值大于显著性水平0.05,说这两个自变量与y相关性较弱,甚至不存在线性相关关系。
三、Python预测房价(不用Sklearn)
1.上传数据文件
2.导入数据
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
df = pd.read_csv('house_prices.csv')
df.info();
df.head()
3.数据清洗
数据缺失分类
- 行记录缺失,实际上就是记录丢失
- 数据列值缺失,数据记录中某些列值空缺
数据库 Null
Python返回对象None
Pandas Numpy NaN
个别情况下,部分缺失值会使用空字符串代替
缺失值处理方式- 直接删除 带有缺失值的行记录(整行删除)或者列字段(整列删除),删除意味着会消减数据特征,不适合直接删除缺失值的情况:
数据记录不完整情况且比例较大(如超过10%),删除会损失过多有用信息。
带有缺失值的数据,记录大量存在着明显的数据分布规律的特征
带有缺失值的数据,记录的目标标签(即分类中的Label变量)主要集中于某一类或几类,如果删除这些数据记录将使对应分类的数据样本丢失大量特征信息,导致模型过拟合或分类不准确。- 填充缺失值 相对直接删除而言,用适当方式填充缺失值,形成完整的数据记录是更加常用的缺失值处理方式。常用的填充方法如下:
统计法
对于数值型的数据,使用均值、加权均值、中位数等方填充
对于分类型数据,使用类别众数最多的值填充。
模型法:更多时候我们会基于已有的其他字段,将缺失字段作为目标变量进行预测,从而得到最为可能的补全值。如果带有缺失值的列是数值变量,采用回归模型补全;如果是分类变量,则采用分类模型补全。
专家补全:对于少量且具有重要意义的数据记录,专家补足也是非常重要的一种途径。
其他方法:例如随机法、特殊值法、多重填补等。- 真值转换法 承认缺失值的存在,并且把数据缺失也作为数据分布规律的一部分,将变量的实际值和缺失值都作为输入维度参与后续数据处理和模型计算中。但是变量的实际值可以作为变量值参与模型计算,而缺失值通常无法参与运算,因此需要对缺失值进行真值转换。
以用户性别字段为例,男 女 未知- 不处理 数据分析和建模应用中很多模型对于缺失值有容忍度或灵活的处理方法,因此在预处理阶段可以不做处理。常见的能够自动处理缺失值的模型包括:KNN、决策树和随机森林、神经网络和朴素贝叶斯
KNN 模型中缺失值不参与距离计算
缺失值处理套路
找到缺失值
分析缺失值在整体样本中的占比
选择合适的方式处理缺失值
(1)异常值处理
# 异常值处理
# ================ 异常值检验函数:iqr & z分数 两种方法 =========================
def outlier_test(data, column, method=None, z=2):
""" 以某列为依据,使用 上下截断点法 检测异常值(索引) """
"""
full_data: 完整数据
column: full_data 中的指定行,格式 'x' 带引号
return 可选; outlier: 异常值数据框
upper: 上截断点; lower: 下截断点
method:检验异常值的方法(可选, 默认的 None 为上下截断点法),
选 Z 方法时,Z 默认为 2
"""
# ================== 上下截断点法检验异常值 ==============================
if method == None:
print(f'以 {
column} 列为依据,使用 上下截断点法(iqr) 检测异常值...')
print('=' * 70)
# 四分位点;这里调用函数会存在异常
column_iqr = np.quantile(data[column], 0.75) - np.quantile(data[column], 0.25)
# 1,3 分位数
(q1, q3) = np.quantile(data[column], 0.25), np.quantile(data[column], 0.75)
# 计算上下截断点
upper, lower = (q3 + 1.5 * column_iqr), (q1 - 1.5 * column_iqr)
# 检测异常值
outlier = data[(data[column] <= lower) | (data[column] >= upper)]
print(f'第一分位数: {
q1}, 第三分位数:{
q3}, 四分位极差:{
column_iqr}')