波士顿房价数据分析(R语言)

波士顿房价数据分析(R语言)

1 .数据变量解释

变量 解释
CRIM 城镇人均犯罪率。
ZN 住宅用地超过 25000 平方英尺的比例。
INDUS 城镇非零售商用土地的比例。
CHAS 查理斯河空变量(如果边界是河流,则为1;否则为0)。
NOX 一氧化氮浓度。
RM 住宅平均房间数。
AGE 1940 年之前建成的自用房屋比例。
DIS 到波士顿五个中心区域的加权距离。
RAD 辐射性公路的接近指数。
TAX 每 10000 美元的全值房产税率。
PTRATIO 城镇师生比例。
B 1000(Bk-0.63)^ 2,其中 Bk 指代城镇中黑人的比例。
LSTAT 人口中地位较低者的比例。
MEDV 房价中位数,以千美元计。

2.非参数检验

boston <- read.csv("D:/Rlanguage/FCwork/boston_data.txt", sep="")
attach(boston)
library(ggplot2)
ggplot(data=boston,aes(x=MEDV,fill=as.factor(CHAS)))+
                                       geom_density(alpha=.3)

图 1 CHAS密度图
CHAS是一个二值变量(即位于查尔斯河边记为1,否则记为0)。通过图1发 现,CHAS=1时的房价分布与CHAS=2时房价分布基本相同。为了探究这一变量 对房价是否有显著影响,接下来将通过一系列检验方法验证。 将样本数据分为两个部分,CHAS=1为一组,CHAS=0为另一组

CHAS1<-subset(boston,CHAS==1)
CHAS2<-subset(boston,CHAS==0)

2.1单样本检验

首先,通过Shapiro Wilk检验房价中位数是否服从正态分布。假设:
H0:房价中位数服从正态分布
H1:房价中位数不服从正态分布

shapiro.test(scale(MEDV))

图2 房价中位数正态性检验
由于P<0.001,拒绝原假设,即房价中位数数据不服从正态分布。

2.2两样本检验

由于房价中位数不服从正态分布,因此采用Wilcoxn秩和检验方法检验在河边 的房价与不在河边的房价是否有显著差异。假设:
H0:在河边与不在河边的房价相同
H1:在河边与不在河边的房价不相同

wilcox.test(CHAS1$MEDV,CHAS2$MEDV,alternative = "less")

图3 Wilcoxn秩和检验
由于P>0.001,接受原假设,在河边的房价与不在河边的房价不具有显著差 异,因此在建立回归模型时考虑删除CHAS变量。

3.回归模型

通过多元回归方法找到影响Boston地区房价的主要因素

3.1建立回归方程

fit<-lm(MEDV~CRIM+ZN+INDUS+NOX+RM+AGE+DIS+RAD+TAX+PTRATIO+B+LSTAT, data=boston)
summary(fit)

  • 42
    点赞
  • 267
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值