数据集来源
https://www.kaggle.com/c/house-prices-advanced-regression-techniques
数据集是kaggle里面的House Prices
加载所需要的包
library(tidyverse)
library(reshape2)
读取数据
housing = read.csv('housing.csv')
简单看一下数据
head(housing)
summary(housing)
- 可以看出total_bedrooms中有缺失值需要处理
- 再有就是ocean_proximity需要处理成哑变量
- total_bedrooms 和 total_rooms需要处理为mean_number_bedrooms and mean_number_rooms
看一下列名字
colnames(housing)
画图看一下各个变量的分布
ggplot(data = melt(housing), mapping = aes(x = value)) +
geom