1. 数据理解
此次建模预测的数据集来源于Data Castle上的“美国King County房价预测训练赛”,链接如下:
数据特征描述如下:

测试集主要包括3000条记录,13个字段,跟训练集的不同是测试集并不包括房屋销售价格,通过由训练集所建立的模型以及所给的测试集,得出测试集相应的房屋销售价格预测值。
2.数据准备
环境:win7+Anaconda+Jupyter notebook
- 导入数据
import pandas as pd import numpy as np #导入训练集 train=pd.read_csv(r"F:\Sets\KingCounty\train.csv") train.head()

发现第一条记录变成了列名,下面进行调整:
#给训练集的列进行赋名 trainNames = ["salesTime","salePrice","bedroomsNum","bathroomNum","housingArea", "parkingArea","floorsNum","housingScore","coveredArea", "basementArea","buildingTime","repairYear","latitude","longitude"] train=pd.read_csv(r"F:\Sets\KingCounty\train.csv",names=trainNames) train.head()

- 查看训练集的形状

训练集中共10000

该博客介绍了如何使用Python的sklearn库建立线性回归模型预测King County的房价。首先,对数据进行理解、准备和清洗,包括处理缺失值、重复值和异常值。接着,通过对因变量进行对数处理以符合正态分布,建立线性回归模型,并通过R^2评估模型性能。最后,使用模型对测试集进行预测并生成预测结果。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



