房屋价格预测

weixin_45841902

已于 2022-04-21 15:47:33 修改

阅读量1k

点赞数

文章标签： python

于 2022-04-21 15:40:42 首次发布

本文链接：https://blog.csdn.net/weixin_45841902/article/details/124323348

版权

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# 读取数据
train = pd.read_csv('train(1).csv')
test = pd.read_csv('test(1).csv')
print(train.shape)
print(test.shape)
# 查看数据类型和描述
print(train.info())
print(train.describe())
# 统计每列Null的占比
print((train.isnull().sum().sort_values(ascending=False)) / train.shape[0])
# 删除空值占比高的列
train.drop(columns=['PoolQC', 'MiscFeature', 'Alley', 'Fence'], axis=1, inplace=True)
test.drop(columns=['PoolQC', 'MiscFeature', 'Alley', 'Fence'], axis=1, inplace=True)
# 统计所有列中的数值类型和分类类型的列
# 不是数值类型的列
category_columns = [col for col in train.columns if train[col].dtype == 'object']
# 是数值类型的列
number_columns = [col for col in train.columns if train[col].dtype != 'object']
print(category_columns)
print(number_columns)
# 特征工程
train_nan_num = []
train_nan_cat = []
# 统计数值类型中哪些列有Null值
for col in number_columns:
    if (train[col].isnull().sum() > 0):
        train_nan_num.append(col)
print(train_nan_num)
# 统计不是数值类型的列哪些有空值
for col in category_columns:
    if (train[col].isnull().sum() > 0):
        train_nan_cat.append(col)
print(train_nan_cat)
# 删除售价的列
number_columns.remove('SalePrice')
# 统计测试集中那些列包含NaN
test_nan_num = []
test_nan_cat = []
# 统计数值类型的列哪些有空值
for col in number_columns:
    if (test[col].isnull().sum() > 0):
        test_nan_num.append(col)
# 统计不是数值类型的列哪些有空值
for col in category_columns:
    if (test[col].isnull().sum() > 0):
        test_nan_cat.append(col)

# 删除有空的列的数据，数据减少太多，换个方法
train_one = train.dropna(axis=0)
print(train_one.shape)
# 所有的数据值取中值，非数据值为None
for col in train_nan_num:
    train[col].fillna(train[col].median(), inplace=True)
for col in train_nan_cat:
    train[col].fillna('None', inplace=True)

for col in test_nan_num:
    test[col].fillna(test[col].median(), inplace=True)
for col in test_nan_cat:
    test[col].fillna('None', inplace=True)
from sklearn.preprocessing import LabelEncoder

LE = LabelEncoder()
# 对所有非数值的列进行归一化
for col in category_columns:
    train[col] = LE.fit_transform(train[col])
    test[col] = LE.fit_transform(test[col])

# pd.set_option('max_columns', 100)
pd.options.display.max_columns = 100
print(train.head())

# 构造特征的数据集，id和售价列删除，转成二维数组
X = train.drop(columns=['Id', 'SalePrice'], axis=1).values
print(X)
# 目标集
y = train['SalePrice'].values
# 转二维数组
# y = y.reshape(-1, 1)
print(y)
# 数据集划分
from sklearn.model_selection import train_test_split

# 验证集占30%，打乱顺序
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, shuffle=True)
print(X_train.shape)
# 创建回归模型
from sklearn.linear_model import LinearRegression

LR = LinearRegression()
# 训练
LR.fit(X_train, y_train)
# 预测
y_pred = LR.predict(X_test)
# 查看均方误差
from sklearn.metrics import mean_squared_error

print('MSE:', mean_squared_error(y_pred, y_test))
# 查看R2指标
from sklearn.metrics import r2_score

r2 = r2_score(y_test, y_pred)
print('R2:', r2)

# 预测
test.drop(columns=['Id'], axis=1, inplace=True)
lr_pred = LR.predict(test)
print(lr_pred)
test['SalePrice'] = lr_pred
test.to_csv('test1.csv')

print(range(len(y_test)))
print(sorted(y_test))
plt.plot(range(len(y_test)), sorted(y_test), c='blue', label='y_true')
plt.plot(range(len(y_pred)), sorted(y_pred), c='red', label='y_pred')
plt.legend()
plt.show()

实验概述