三、异常点
所谓的异常点一般指有着很大残差(绝对值)的点,如果对模型的参数估计值影响出现了比例失衡,那么我们称之为强影响点。为了说明异常点与强影响点的判别,我们特意采用模拟的数据来证实它。
为了简单起见,我们采用一元模型来说明问题。
模拟数据:(模型:y=0.5+1.7*x+e)
x<-rexp(100,0.2)
e<-rnorm(100)
y<-0.5+1.7*x+e
我们来看看这个回归结果
lm(y~x)
输出结果:
Call:
lm(formula= y ~ x)
Coefficients:
(Intercept) x
0.5489 1.7955
我们来改变其中的一个点:
y[50]<-0.7+0.2*x[50]+e[50]
那么他是异常点吗?这个改变毕竟不大,能被观测出来吗?我们可以先看看回归系数发生了什么样的改变?
lm.reg1<-lm(y~x)
lm.reg1
Call:
lm(formula= y ~ x)
Coefficients:
(Intercept) x
0.3827 1.7404
我们通过qq图进行初步判断:
显然初步判断它没有成为一个异常点。我们也可以通过car包里的outlierTest()来判断。
outlierTest(lm.reg1)
输出结果:
NoStudentized residuals with Bonferonni p < 0.05
Largest|rstudent|:
rstudent unadjusted p-value Bonferonni p
36 2.285984 0.024431 NA
也就是说没有异常点,其中残差最大的点是36号点。这也告