多元线性回归预测房价

最新推荐文章于 2022-07-11 09:40:07 发布

xieyang929

最新推荐文章于 2022-07-11 09:40:07 发布

阅读量275

点赞数

文章标签：线性回归 python 算法

本文链接：https://blog.csdn.net/xieyang929/article/details/121104060

版权

本文通过jupyter、EXCEL和Sklearn库探讨多元线性回归模型，用于预测房价。首先在JUPYTER中导入CSV数据，进行变量探索和线性回归建模；接着在EXCEL中使用数据分析功能求解回归方程；最后利用Sklearn库进行数据清洗和模型优化，得到回归模型。

摘要由CSDN通过智能技术生成

文章目录

一.利用jupyter实现

从作业里面把CSV文件导入到JUPYTER中，新建House.ipynb，输入代码：

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
df=pd.read_csv('house_prices.csv')//导入数据集
df.info();df.head()

在这里插入图片描述
变量探索：

#异常值处理
#定义一个函数outlier_test（iqr&z分数两种方法）
def outlier_test(data,column,method=None,z=2):
    """ 以某列为依据，使用 上下截断点法 检测异常值(索引) """
    """ 
    full_data: 完整数据 
    column: full_data 中的指定行，格式 'x' 带引号 
    return 可选; outlier: 异常值数据框 upper: 上截断点; lower: 下截断点 
    method：检验异常值的方法（可选, 默认的 None 为上下截断点法），
    选 Z 方法时，Z 默认为 2 
    """
    #上下截断点法检验异常值
    if method==None:
        print(f'以{column}列为依据，使用上下截断点法(iqr)检测异常值')
        print('='*70)
        #四分位点：这里调用函数会存在异常
        column_iqr=np.quantile(data[column],0.75)-np.quantile(data[column],0.25)
        #1,3分位数
        (q1,q3)=np.quantile(data[column],0.25),np.quantile(data[column],0.75)
        #计算上下截断点
        upper,lower=(q3+1.5*column_ipr),(q1-1.5*column_iqr)
        #检测异常值
        outlier=data[(data[column]<=lower)|(data[column]>=upper)]
        print(f'第一分位数：{q1},第三分位数：{q3},四分位极差：{column_iqr}')
        print(f"上截断点：{upper}, 下截断点：{lower}") 
        return outlier, upper, lower
    #z分数检验异常值
    if method=='z':
        """ 以某列为依据，传入数据与希望分段的 z 分数点，返回异常值索引与所在数据框 """
        """
        params
        data: 完整数据
        column: 指定的检测列
        z: Z分位数, 默认为2，根据 z分数-正态曲线表，可知取左右两端的 2%，
           根据您 z 分数的正负设置。也可以任意更改，知道任意顶端百分比的数据集合
        """
        print(f'以{column}列为依据，使用z分法，z分位数取{z}来检测异常值')
        print('='*70)
        # 计算两个 Z 分数的数值点
        mean,std=np.mean(data[column]),np.std(data[column])
        upper,lower=(mean+z*std),(mean-z*std)
        print(f'取 {z} 个 Z分数：大于 {upper} 或小于 {lower} 的即可被视为异常值')
        print('=' * 70)
        # 检测异常值
        outlier = data[(data[column] <= lower) | (data[column] >= upper)]
        return outlier, upper, lower

outlier, upper, lower = outlier_test(data=df, column='price', method='z')
outlier.info(); outlier.sample(5)

在这里插入图片描述
简单丢弃

#简单丢弃
df.drop(index

最低0.47元/天解锁文章

xieyang929

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫