1. 子集选择
1.1 最优子集选择
对 p p p个预测变量的所有可能组合分别使用最小二乘回归进行拟合:对含有一个预测变量的模型,拟合 p p p个模型;对含有两个预测变量的模型,拟合 p ( p − 1 ) / 2 p(p-1)/2 p(p−1)/2个模型……,最后在所有可能模型中选取最优模型。
算法1 最优子集选择(p个变量,在 2 p 2^p 2p个模型中选择最优模型) |
---|
1. 记不含预测变量的零模型为 M 0 M_{0} M0,只用于估计各观测的样本均值 |
2. 对于 k = 1 , 2 , … … , p k=1,2,……,p k=1,2,……,p:(a)拟合 p ( p − 1 ) / k p(p-1)/k p(p−1)/k个包含k个预测变量的模型; |
(b)在 p ( p − 1 ) / k p(p-1)/k p(p−1)/k个模型中选择RSS(偏差—logistic)最小或R²最大的作为最优模型,记为 M k M_{k} Mk |
3. 根据交叉验证预测误差、 C p ( A I C ) C_{p}(AIC) Cp(AIC)、BIC或者调整R²,从 M 0 , … … , M p M_{0},……,M_{p} M0,……,Mp个模型中选择最优模型 |
简单直观,但是计算效率不高,会出现过拟合以及系数估计方差高的问题。
1.2 逐步选择
1.2.1 向前逐步选择
以一个不包含任何预测变量的零模型为起点,依次往模型中添加变量,直至所有的预测变量都在模型中。(每次只将能提升模型效果max的变量加入模型)
算法2 向前逐步选择 |
---|
1. 记不含预测变量的零模型为 M 0 M_{0} M0; |
2. 对于 k = 0 , 2 , … … , p − 1 k=0,2,……,p-1 k=0,2,……,p−1:(a)从 p − k p-k p−k个模型中进行选择,每个模型只在 M k M_{k} Mk的基础上增加一个变量; |
(b)在 p − k p-k p−k个模型中选择RSS(偏差—logistic)最小或R²最大的作为最优模型,记为 M k + 1 M_{k+1} Mk+1 |
3. 根据交叉验证预测误差、 C p ( A I C ) C_{p}(AIC) Cp(AIC)、BIC或者调整R²,从 M 0 , … … , M p M_{0},……,M_{p} M0,……,Mp个模型中选择最优模型 |
相比于最优子集选择,运算效率有所提高,但无法保证找到的模型是 2 p 2^p 2p个模型中最优的。
1.2.2 向后逐步选择
算法3 向后逐步选择 |
---|
1. 记包含全部p个预测变量的全模型为 M p M_{p} Mp; |
2. 对于 k = p , p − 1 , … , 1 k=p,p-1,…,1 k=p,p−1,…,1:(a)从 k k k个模型中进行选择,在模型 M k M_{k} Mk的基础上减少一个变量,则模型只含k-1个变量; |
(b)在 k k k个模型中选择RSS(偏差—logistic)最小或R²最大的作为最优模型,记为 M k − 1 M_{k-1} Mk−1 |
3. 根据交叉验证预测误差、 C p ( A I C ) C_{p}(AIC) Cp(AIC)、BIC或者调整R²,从 M 0 , … … , M p M_{0},……,M_{p} M0,……,Mp个模型中选择最优模型 |
向后选择方法需满足样本量n 大于变量个数p,当n<p,p很大的情况下,只能用向前逐步选择。
1.3 选择最优模型
R S S RSS RSS与 R 2 R^2 R2并不适用于对包含不同个数预测变量模型进行模型选择,它们都与训练误差有关,我们希望具有最小的测试误差,训练误差可能是测试误差的一个较差估计。
通常:
- 根据过拟合导致的偏差对训练误差进行调整,间接地估计测试误差;
- 通过验证集方法或交叉验证方法,直接估计测试误差。
1.3.1 C p 、 A I C 、 B I C 、 调 整 的 R 2 C_{p}、AIC、BIC、调整的R^2 Cp、AIC、BIC、调整的R2
-
C p C_{p} Cp值
采用最小二乘法拟合一个包含d个预测变量的模型,其 C p C_{p} Cp值为:
C p = 1 n ( R S S + 2 d σ ^ 2 ) C_{p}=\frac{1}{n}\left(\mathrm{RSS}+2 d \hat{\sigma}^{2}\right) Cp=n1(RSS+2dσ^2)
其中 σ ^ 2 \hat{\sigma}^{2} σ^2是标准线性回归模型中各个响应变量观测误差的方差 ϵ \epsilon ϵ的估计值,选择具有最低 C p C_{p} Cp值的模型作为最优模型。 -
赤池信息量准则(Akaike information criterion, AIC)
A I C = 1 n σ ^ 2 ( R S S + 2 d σ ^ 2 ) \mathrm{AIC}=\frac{1}{n \hat{\sigma}^{2}}\left(\mathrm{RSS}+2 d \hat{\sigma}^{2}\right) AIC=nσ^21(RSS+2dσ^2)
AIC准则适用于许多使用极大似然法进行拟合的模型。若标准线性回归模型的误差项服从高斯分布,极大似然估计和最小二乘估计是等价的。
对于最小二乘模型, C p C_{p} Cp与AIC彼此成比例。 -
贝叶斯信息准则(Bayesian information criterion, BIC)
B I C = 1 n σ ^ 2 ( R S S + log ( n ) d σ ^ 2 ) \mathrm{BIC}=\frac{1}{n \hat{\sigma}^{2}}\left(\mathrm{RSS}+\log (n) d \hat{\sigma}^{2}\right) BIC=nσ^21(RSS+log(n)dσ^2)
与 C p C_{p} Cp类似,测试误差较低的模型BIC统计量取值较低,选择具有最低BIC的模型为最优模型。
BIC将 C p C_{p} Cp中的 d σ ^ 2 d \hat{\sigma}^{2} dσ^2替换为 log ( n ) d σ ^ 2 \log (n) d \hat{\sigma}^{2} log(n)dσ^2,n为观测数量,对于任意n>7,logn>2,BIC统计量通常给包含多个变量的模型进行较重的惩罚,与 C p C_{p} Cp相比,得到的模型规模更小。 -
调整的 R 2 R^2 R2
Adjusted