R语言与回归分析学习笔记(应用回归小结)(2)

本文通过R语言介绍了异常点与强影响点的概念,利用模拟数据展示了如何使用outlierTest和influencePlot进行判断。讨论了异常点的处理方法,并强调对异常点的重视。此外,文章提到了回归模型的改进,如岭回归、主成分回归应对复共线性,以及box-cox变换解决异方差性。最后,探讨了变量选择,推荐使用全子集回归和subsets函数,并提醒读者谨慎对待变量变换。
摘要由CSDN通过智能技术生成

三、异常点

        所谓的异常点一般指有着很大残差(绝对值)的点,如果对模型的参数估计值影响出现了比例失衡,那么我们称之为强影响点。为了说明异常点与强影响点的判别,我们特意采用模拟的数据来证实它。

       为了简单起见,我们采用一元模型来说明问题。

       模拟数据:(模型:y=0.5+1.7*x+e)

x<-rexp(100,0.2)
e<-rnorm(100)
y<-0.5+1.7*x+e

      我们来看看这个回归结果

lm(y~x)

     输出结果:

Call:

lm(formula= y ~ x)

Coefficients:

(Intercept)            x 

     0.5489       1.7955 

     我们来改变其中的一个点:

y[50]<-0.7+0.2*x[50]+e[50]

      那么他是异常点吗?这个改变毕竟不大,能被观测出来吗?我们可以先看看回归系数发生了什么样的改变?

lm.reg1<-lm(y~x)
lm.reg1

Call:

lm(formula= y ~ x)

Coefficients:

(Intercept)            x 

     0.3827       1.7404

         我们通过qq图进行初步判断:


         显然初步判断它没有成为一个异常点。我们也可以通过car包里的outlierTest()来判断。

outlierTest(lm.reg1)

       输出结果:

NoStudentized residuals with Bonferonni p < 0.05

Largest|rstudent|:

        rstudent        unadjusted p-value         Bonferonni p

36    2.285984           0.024431                       NA

        也就是说没有异常点,其中残差最大的点是36号点。这也告

  • 9
    点赞
  • 81
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值