jupyter多元线性回归算法预测房价

一、概念

社会经济现象的变化往往受到多个因素的影响,因此,一般要进行多元回归分析,我们把包括两个或两个以上自变量的回归称为多元线性回归
多元线性回归的基本原理和基本计算过程与一元线性回归相同,但由于自变量个数多,计算相当麻烦,一般在实际中应用时都要借助统计软件。这里只介绍多元线性回归的一些基本问题。
多元线性回归与一元线性回归类似,可以用最小二乘法估计模型参数,也需对模型及模型参数进行统计检验 。
选择合适的自变量是正确进行多元回归预测的前提之一,多元回归模型自变量的选择可以利用变量之间的相关矩阵来解决。

二、Excel预测房价

删除不合理的数据,如:
在这里插入图片描述

将neighborhood移到最右边,便于选择X的数据,打开数据分析中的回归进行相关选择:
在这里插入图片描述

在这里插入图片描述

分析结果:
在这里插入图片描述

回归结果分析:

在图中的回归统计子表中,字段Multiple R代表复相关系数R,也就是R2的平方根,又称相关系数,用来衡量自变量x与y之间的相关程度的大小。本次数据集回归分析得到的R=0.788654,这表明x和y之间的关系为高度正相关。R Square是复测定系数,也就是相关系数R的平方。Adjusted R Square是调整后的复测定系数R2,该值为0.621974,说明自变量能说明因变量y的62.20%,因变量y的38.8%要由其他因素来解释。标准误差用来衡量拟合程度的大小,也用于计算与回归相关的其它统计量,此值越小,说明拟合程度越好。观察值是用于估计回归方程的数据的观察值个数,本次数据集共有5414条数据,所以观察值为5414。

在图中的方差分析子表中,Significance F为F检验显著性统计量,它的P值为0,小于显著性水平0.05,故而能够确定该回归方程回归效果显著,且方程中至少有一个回归系数显著不为0。

设因变量price为y,自变量house_id为x1,自变量area为x2,自变量bedrooms为x3,自变量bathrooms为x4。在图中的第三张子表中,Coefficients为常数项和b1~b4的值,据此便可以估算得出回归方程为:y= 344.1818x1+-1020.02x2+7997.111x3+ 4183.78。但根据Coefficients估算出的回归方程可能存在较大的误差,在第三张子表中更为重要的一列是P-value列,P-value为回归系数t统计量的P值。由表中P-value的值可以发现,自变量area的P值远小于显著性水平0.05,因此这个自变量与y相关。其余自变量P值大于显著性水平0.05,说这两个自变量与y相关性较弱,甚至不存在线性相关关系。

三、Python预测房价(不用Sklearn)

1.上传数据文件

在这里插入图片描述

2.导入数据

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
df = pd.read_csv('house_prices.csv')
df.info();
df.head()

3.数据清洗

数据缺失分类

  • 行记录缺失,实际上就是记录丢失
  • 数据列值缺失,数据记录中某些列值空缺
    数据库 Null
    Python返回对象None
    Pandas Numpy NaN
    个别情况下,部分缺失值会使用空字符串代替
    缺失值处理方式
  • 直接删除 带有缺失值的行记录(整行删除)或者列字段(整列删除),删除意味着会消减数据特征,不适合直接删除缺失值的情况:
    数据记录不完整情况且比例较大(如超过10%),删除会损失过多有用信息。
    带有缺失值的数据,记录大量存在着明显的数据分布规律的特征
    带有缺失值的数据,记录的目标标签(即分类中的Label变量)主要集中于某一类或几类,如果删除这些数据记录将使对应分类的数据样本丢失大量特征信息,导致模型过拟合或分类不准确。
  • 填充缺失值 相对直接删除而言,用适当方式填充缺失值,形成完整的数据记录是更加常用的缺失值处理方式。常用的填充方法如下:
    统计法
    对于数值型的数据,使用均值、加权均值、中位数等方填充
    对于分类型数据,使用类别众数最多的值填充。
    模型法:更多时候我们会基于已有的其他字段,将缺失字段作为目标变量进行预测,从而得到最为可能的补全值。如果带有缺失值的列是数值变量,采用回归模型补全;如果是分类变量,则采用分类模型补全。
    专家补全:对于少量且具有重要意义的数据记录,专家补足也是非常重要的一种途径。
    其他方法:例如随机法、特殊值法、多重填补等。
  • 真值转换法 承认缺失值的存在,并且把数据缺失也作为数据分布规律的一部分,将变量的实际值和缺失值都作为输入维度参与后续数据处理和模型计算中。但是变量的实际值可以作为变量值参与模型计算,而缺失值通常无法参与运算,因此需要对缺失值进行真值转换。
    以用户性别字段为例,男 女 未知
  • 不处理 数据分析和建模应用中很多模型对于缺失值有容忍度或灵活的处理方法,因此在预处理阶段可以不做处理。常见的能够自动处理缺失值的模型包括:KNN、决策树和随机森林、神经网络和朴素贝叶斯
    KNN 模型中缺失值不参与距离计算
    缺失值处理套路
    找到缺失值
    分析缺失值在整体样本中的占比
    选择合适的方式处理缺失值

(1)异常值处理

# 异常值处理
# ================ 异常值检验函数:iqr & z分数 两种方法 =========================
def outlier_test(data, column, method=None, z=2):
    """ 以某列为依据,使用 上下截断点法 检测异常值(索引) """
    """ 
    full_data: 完整数据
    column: full_data 中的指定行,格式 'x' 带引号
    return 可选; outlier: 异常值数据框 
    upper: 上截断点;  lower: 下截断点
    method:检验异常值的方法(可选, 默认的 None 为上下截断点法),
            选 Z 方法时,Z 默认为 2
    """
    # ================== 上下截断点法检验异常值 ==============================
    if method == None:
        print(f'以 {
     column} 列为依据,使用 上下截断点法(iqr) 检测异常值...')
        print('=' * 70)
        # 四分位点;这里调用函数会存在异常
        column_iqr = np.quantile(data[column], 0.75) - np.quantile(data[column], 0.25)
        # 1,3 分位数
        (q1, q3) = np.quantile(data[column], 0.25), np.quantile(data[column], 0.75)
        # 计算上下截断点
        upper, lower = (q3 + 1.5 * column_iqr), (q1 - 1.5 * column_iqr)
        # 检测异常值
        outlier = data[(data[column] <= lower) | (data[column] >= upper)]
        print(f'第一分位数: {
     q1}, 第三分位数:{
     q3}, 四分位极差:{
     column_iqr}')
        
  • 9
    点赞
  • 108
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
多元线性回归分析是一种统计方法,用于研究多个自变量与一个连续性目标变量之间的关系。在多元线性回归中,我们可以使用多个自变量来预测目标变量的值。多元线性回归的基本原理和计算过程与一元线性回归相似,但由于自变量的个数增加,计算变得更加复杂,通常需要借助统计软件进行计算。选择合适的自变量是进行多元回归预测的重要前提之一,可以利用变量之间的相关矩阵来解决自变量的选择问题。\[2\] 在Jupyter中进行多元线性回归分析,你可以使用Python的统计库(如statsmodels或scikit-learn)来实现。首先,你需要准备好包含自变量和目标变量的数据集。然后,你可以使用适当的函数或类来拟合多元线性回归模型,并获取回归系数和其他统计信息。最后,你可以使用模型来进行预测和分析。具体的步骤和代码实现可以根据你的具体需求和数据集来进行调整。 #### 引用[.reference_title] - *1* *3* [机器学习 jupyter Python 线性回归(自己写的算法)](https://blog.csdn.net/qq_45059457/article/details/106039860)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [jupyter多元线性回归算法预测房价](https://blog.csdn.net/weixin_46129506/article/details/120954412)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值