波士顿房价数据分析(R语言)
1 .数据变量解释
变量 | 解释 |
---|---|
CRIM | 城镇人均犯罪率。 |
ZN | 住宅用地超过 25000 平方英尺的比例。 |
INDUS | 城镇非零售商用土地的比例。 |
CHAS | 查理斯河空变量(如果边界是河流,则为1;否则为0)。 |
NOX | 一氧化氮浓度。 |
RM | 住宅平均房间数。 |
AGE | 1940 年之前建成的自用房屋比例。 |
DIS | 到波士顿五个中心区域的加权距离。 |
RAD | 辐射性公路的接近指数。 |
TAX | 每 10000 美元的全值房产税率。 |
PTRATIO | 城镇师生比例。 |
B | 1000(Bk-0.63)^ 2,其中 Bk 指代城镇中黑人的比例。 |
LSTAT | 人口中地位较低者的比例。 |
MEDV | 房价中位数,以千美元计。 |
2.非参数检验
boston <- read.csv("D:/Rlanguage/FCwork/boston_data.txt", sep="")
attach(boston)
library(ggplot2)
ggplot(data=boston,aes(x=MEDV,fill=as.factor(CHAS)))+
geom_density(alpha=.3)
CHAS是一个二值变量(即位于查尔斯河边记为1,否则记为0)。通过图1发 现,CHAS=1时的房价分布与CHAS=2时房价分布基本相同。为了探究这一变量 对房价是否有显著影响,接下来将通过一系列检验方法验证。 将样本数据分为两个部分,CHAS=1为一组,CHAS=0为另一组
CHAS1<-subset(boston,CHAS==1)
CHAS2<-subset(boston,CHAS==0)
2.1单样本检验
首先,通过Shapiro Wilk检验房价中位数是否服从正态分布。假设:
H0:房价中位数服从正态分布
H1:房价中位数不服从正态分布
shapiro.test(scale(MEDV))
由于P<0.001,拒绝原假设,即房价中位数数据不服从正态分布。
2.2两样本检验
由于房价中位数不服从正态分布,因此采用Wilcoxn秩和检验方法检验在河边 的房价与不在河边的房价是否有显著差异。假设:
H0:在河边与不在河边的房价相同
H1:在河边与不在河边的房价不相同
wilcox.test(CHAS1$MEDV,CHAS2$MEDV,alternative = "less")
由于P>0.001,接受原假设,在河边的房价与不在河边的房价不具有显著差 异,因此在建立回归模型时考虑删除CHAS变量。
3.回归模型
通过多元回归方法找到影响Boston地区房价的主要因素
3.1建立回归方程
fit<-lm(MEDV~CRIM+ZN+INDUS+NOX+RM+AGE+DIS+RAD+TAX+PTRATIO+B+LSTAT, data=boston)
summary(fit)