统计学习导论(六)线性模型选择与正则化——学习笔记

本文介绍了统计学习中的模型选择方法,包括子集选择(最优子集、逐步选择)、压缩估计(岭回归、lasso回归)和降维方法(主成分回归、偏最小二乘)。重点讨论了如何选择最优模型,如使用Cp、AIC、BIC和调整的R2准则,以及验证与交叉验证。此外,还探讨了高维数据问题及其解决策略,并提供了R语言的实现示例。
摘要由CSDN通过智能技术生成

1. 子集选择

1.1 最优子集选择

p p p个预测变量的所有可能组合分别使用最小二乘回归进行拟合:对含有一个预测变量的模型,拟合 p p p个模型;对含有两个预测变量的模型,拟合 p ( p − 1 ) / 2 p(p-1)/2 p(p1)/2个模型……,最后在所有可能模型中选取最优模型。

算法1 最优子集选择(p个变量,在 2 p 2^p 2p个模型中选择最优模型)
1. 记不含预测变量的零模型为 M 0 M_{0} M0,只用于估计各观测的样本均值
2. 对于 k = 1 , 2 , … … , p k=1,2,……,p k=1,2,,p:(a)拟合 p ( p − 1 ) / k p(p-1)/k p(p1)/k个包含k个预测变量的模型;
(b)在 p ( p − 1 ) / k p(p-1)/k p(p1)/k个模型中选择RSS(偏差—logistic)最小或R²最大的作为最优模型,记为 M k M_{k} Mk
3. 根据交叉验证预测误差、 C p ( A I C ) C_{p}(AIC) Cp(AIC)、BIC或者调整R²,从 M 0 , … … , M p M_{0},……,M_{p} M0,,Mp个模型中选择最优模型

简单直观,但是计算效率不高,会出现过拟合以及系数估计方差高的问题。

1.2 逐步选择

1.2.1 向前逐步选择

以一个不包含任何预测变量的零模型为起点,依次往模型中添加变量,直至所有的预测变量都在模型中。(每次只将能提升模型效果max的变量加入模型)

算法2 向前逐步选择
1. 记不含预测变量的零模型为 M 0 M_{0} M0
2. 对于 k = 0 , 2 , … … , p − 1 k=0,2,……,p-1 k=0,2,,p1:(a)从 p − k p-k pk个模型中进行选择,每个模型只在 M k M_{k} Mk的基础上增加一个变量;
(b)在 p − k p-k pk个模型中选择RSS(偏差—logistic)最小或R²最大的作为最优模型,记为 M k + 1 M_{k+1} Mk+1
3. 根据交叉验证预测误差、 C p ( A I C ) C_{p}(AIC) Cp(AIC)、BIC或者调整R²,从 M 0 , … … , M p M_{0},……,M_{p} M0,,Mp个模型中选择最优模型

相比于最优子集选择,运算效率有所提高,但无法保证找到的模型是 2 p 2^p 2p个模型中最优的。

1.2.2 向后逐步选择

算法3 向后逐步选择
1. 记包含全部p个预测变量的全模型为 M p M_{p} Mp
2. 对于 k = p , p − 1 , … , 1 k=p,p-1,…,1 k=p,p1,,1:(a)从 k k k个模型中进行选择,在模型 M k M_{k} Mk的基础上减少一个变量,则模型只含k-1个变量;
(b)在 k k k个模型中选择RSS(偏差—logistic)最小或R²最大的作为最优模型,记为 M k − 1 M_{k-1} Mk1
3. 根据交叉验证预测误差、 C p ( A I C ) C_{p}(AIC) Cp(AIC)、BIC或者调整R²,从 M 0 , … … , M p M_{0},……,M_{p} M0,,Mp个模型中选择最优模型

向后选择方法需满足样本量n 大于变量个数p,当n<p,p很大的情况下,只能用向前逐步选择。

1.3 选择最优模型

R S S RSS RSS R 2 R^2 R2并不适用于对包含不同个数预测变量模型进行模型选择,它们都与训练误差有关,我们希望具有最小的测试误差,训练误差可能是测试误差的一个较差估计。
通常:

  1. 根据过拟合导致的偏差对训练误差进行调整,间接地估计测试误差;
  2. 通过验证集方法或交叉验证方法,直接估计测试误差。

1.3.1 C p 、 A I C 、 B I C 、 调 整 的 R 2 C_{p}、AIC、BIC、调整的R^2 CpAICBICR2

  1. C p C_{p} Cp
    采用最小二乘法拟合一个包含d个预测变量的模型,其 C p C_{p} Cp值为:
    C p = 1 n ( R S S + 2 d σ ^ 2 ) C_{p}=\frac{1}{n}\left(\mathrm{RSS}+2 d \hat{\sigma}^{2}\right) Cp=n1(RSS+2dσ^2)
    其中 σ ^ 2 \hat{\sigma}^{2} σ^2是标准线性回归模型中各个响应变量观测误差的方差 ϵ \epsilon ϵ的估计值,选择具有最低 C p C_{p} Cp值的模型作为最优模型。

  2. 赤池信息量准则(Akaike information criterion, AIC)
    A I C = 1 n σ ^ 2 ( R S S + 2 d σ ^ 2 ) \mathrm{AIC}=\frac{1}{n \hat{\sigma}^{2}}\left(\mathrm{RSS}+2 d \hat{\sigma}^{2}\right) AIC=nσ^21(RSS+2dσ^2)
    AIC准则适用于许多使用极大似然法进行拟合的模型。若标准线性回归模型的误差项服从高斯分布,极大似然估计和最小二乘估计是等价的。
    对于最小二乘模型, C p C_{p} Cp与AIC彼此成比例。

  3. 贝叶斯信息准则(Bayesian information criterion, BIC)
    B I C = 1 n σ ^ 2 ( R S S + log ⁡ ( n ) d σ ^ 2 ) \mathrm{BIC}=\frac{1}{n \hat{\sigma}^{2}}\left(\mathrm{RSS}+\log (n) d \hat{\sigma}^{2}\right) BIC=nσ^21(RSS+log(n)dσ^2)
    C p C_{p} Cp类似,测试误差较低的模型BIC统计量取值较低,选择具有最低BIC的模型为最优模型。
    BIC将 C p C_{p} Cp中的 d σ ^ 2 d \hat{\sigma}^{2} dσ^2替换为 log ⁡ ( n ) d σ ^ 2 \log (n) d \hat{\sigma}^{2} log(n)dσ^2,n为观测数量,对于任意n>7,logn>2,BIC统计量通常给包含多个变量的模型进行较重的惩罚,与 C p C_{p} Cp相比,得到的模型规模更小。

  4. 调整的 R 2 R^2 R2
     Adjusted 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

鸭鸭鸭鸭鸭鸭

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值