1. 数据理解
此次建模预测的数据集来源于Data Castle上的“美国King County房价预测训练赛”,链接如下:
数据特征描述如下:
测试集主要包括3000条记录,13个字段,跟训练集的不同是测试集并不包括房屋销售价格,通过由训练集所建立的模型以及所给的测试集,得出测试集相应的房屋销售价格预测值。
2.数据准备
环境:win7+Anaconda+Jupyter notebook
- 导入数据
import pandas as pd import numpy as np #导入训练集 train=pd.read_csv(r"F:\Sets\KingCounty\train.csv") train.head()
发现第一条记录变成了列名,下面进行调整:
#给训练集的列进行赋名 trainNames = ["salesTime","salePrice","bedroomsNum","bathroomNum","housingArea", "parkingArea","floorsNum","housingScore","coveredArea", "basementArea","buildingTime","repairYear","latitude","longitude"] train=pd.read_csv(r"F:\Sets\KingCounty\train.csv",names=trainNames) train.head()
- 查看训练集的形状
训练集中共10000条记录、14条字段
- 查看训练集的数据类型