R语言-基于集波士顿住房

1.使用数据集boston_housing_data.csv
大家可以在网上查找这个数据集,很好找到。

2.数据集中每一个属性的含义:

CRIM “numeric” 人均犯罪率

ZN “numeric” 超过2W5平方英尺的住宅用地所占比例

INDUS “numeric” 城市非零售业的商业用地比例

CHAS “integer” Charles河是否流经

NOX “numeric” 一氧化碳浓度

RM “numeric” 每栋住宅的平均房间数

AGE “numeric” 1940年以前建成的自住房比例

DIS “numeric” 到波士顿五个中心区域的加权平均距离

RAD “integer” 到达高速公路的便利指数

TAX “numeric” 每1W美元的全值财产税率

PIRATIO “numeric” 师生比

B “numeric” BK是黑人比例,越接近0.63越小,B=1000*(BK-0.63)^2

LSTAT “numeric” 低收入人口比例

MEDV “numeric” 自住房屋房价的平均房价单位为(1W美元)

3.导入数据

mydata<-read.table('D:/boston_housing_data.csv',

                   head=T,sep=','

                   ,stringsAsFactors = FALSE)

4.缺失值处理

首先使用is.na(mydata),进行缺失值的处理,再使用代码na.omit(mydata),删除缺失值,若不进行此步,就会出现错误提示:'x'里有无穷值或遗漏值。代码如下:

is.na(mydata) #查看是否有缺失值

newdata <- na.omit(mydata)  #删除缺失值

5.数据分析

在分析每一个属性之间的关联时,我在这里使用的是矩阵热图,首先引入corrplot函数包,将数据集变成相关系数矩阵:cor(newdata),然后使用该包将相关系数热图显示出来

在图中,颜色越深代表两个关系中的相关系数越近,Boston的中位数房价(MEDV)一列中,与LSTAT、PTRATIO、RM等变量间的相关关系最大。

在这里矩阵图形默认为方形,也可以更改参数系数可以是圆形、方形、椭圆形、数值、阴影、颜色或饼图形,m

  • 2
    点赞
  • 69
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值