R语言做kaggle中California Housing Prices数据集

数据集来源

https://www.kaggle.com/c/house-prices-advanced-regression-techniques
数据集是kaggle里面的House Prices
加载所需要的包

library(tidyverse)
library(reshape2)

读取数据

housing = read.csv('housing.csv')

简单看一下数据

head(housing)
summary(housing)
  • 可以看出total_bedrooms中有缺失值需要处理
  • 再有就是ocean_proximity需要处理成哑变量
  • total_bedrooms 和 total_rooms需要处理为mean_number_bedrooms and mean_number_rooms

看一下列名字

colnames(housing)

画图看一下各个变量的分布

ggplot(data = melt(housing), mapping = aes(x = value)) + 
    geom
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值