统计学习导论（六）线性模型选择与正则化——学习笔记

最新推荐文章于 2023-01-03 21:25:12 发布

鸭鸭鸭鸭鸭鸭

最新推荐文章于 2023-01-03 21:25:12 发布

阅读量1.3k

点赞数 3

分类专栏：统计学习导论文章标签：算法 r语言深度学习统计学

本文链接：https://blog.csdn.net/weixin_52547939/article/details/120418922

版权

本文介绍了统计学习中的模型选择方法，包括子集选择（最优子集、逐步选择）、压缩估计（岭回归、lasso回归）和降维方法（主成分回归、偏最小二乘）。重点讨论了如何选择最优模型，如使用Cp、AIC、BIC和调整的R2准则，以及验证与交叉验证。此外，还探讨了高维数据问题及其解决策略，并提供了R语言的实现示例。

摘要由CSDN通过智能技术生成

1. 子集选择

1.1 最优子集选择

对 $p$ 个预测变量的所有可能组合分别使用最小二乘回归进行拟合：对含有一个预测变量的模型，拟合 $p$ 个模型；对含有两个预测变量的模型，拟合 $p (p - 1) / 2$ 个模型……，最后在所有可能模型中选取最优模型。

算法1 最优子集选择（p个变量，在 $2^p$ 个模型中选择最优模型）
1. 记不含预测变量的零模型为 $M_{0}$ ，只用于估计各观测的样本均值
2. 对于 $k = 1, 2, \dots \dots, p$ ：（a）拟合 $p (p - 1) / k$ 个包含k个预测变量的模型；
（b）在 $p (p - 1) / k$ 个模型中选择RSS（偏差—logistic）最小或R²最大的作为最优模型，记为 $M_{k}$
3. 根据交叉验证预测误差、 $C_{p}(AIC)$ 、BIC或者调整R²，从 $M_{0},……,M_{p}$ 个模型中选择最优模型

简单直观，但是计算效率不高，会出现过拟合以及系数估计方差高的问题。

1.2 逐步选择

1.2.1 向前逐步选择

以一个不包含任何预测变量的零模型为起点，依次往模型中添加变量，直至所有的预测变量都在模型中。（每次只将能提升模型效果max的变量加入模型）

算法2 向前逐步选择
1. 记不含预测变量的零模型为 $M_{0}$ ；
2. 对于 $k = 0, 2, \dots \dots, p - 1$ ：（a）从 $p - k$ 个模型中进行选择，每个模型只在 $M_{k}$ 的基础上增加一个变量；
（b）在 $p - k$ 个模型中选择RSS（偏差—logistic）最小或R²最大的作为最优模型，记为 $M_{k+1}$
3. 根据交叉验证预测误差、 $C_{p}(AIC)$ 、BIC或者调整R²，从 $M_{0},……,M_{p}$ 个模型中选择最优模型

相比于最优子集选择，运算效率有所提高，但无法保证找到的模型是 $2^p$ 个模型中最优的。

1.2.2 向后逐步选择

算法3 向后逐步选择
1. 记包含全部p个预测变量的全模型为 $M_{p}$ ；
2. 对于 $k = p, p - 1, \dots, 1$ ：（a）从 $k$ 个模型中进行选择，在模型 $M_{k}$ 的基础上减少一个变量，则模型只含k-1个变量；
（b）在 $k$ 个模型中选择RSS（偏差—logistic）最小或R²最大的作为最优模型，记为 $M_{k-1}$
3. 根据交叉验证预测误差、 $C_{p}(AIC)$ 、BIC或者调整R²，从 $M_{0},……,M_{p}$ 个模型中选择最优模型

向后选择方法需满足样本量n 大于变量个数p，当n<p，p很大的情况下，只能用向前逐步选择。

1.3 选择最优模型

$R S S$ 与 $R^2$ 并不适用于对包含不同个数预测变量模型进行模型选择，它们都与训练误差有关，我们希望具有最小的测试误差，训练误差可能是测试误差的一个较差估计。
通常：

根据过拟合导致的偏差对训练误差进行调整，间接地估计测试误差；
通过验证集方法或交叉验证方法，直接估计测试误差。

1.3.1 $C_{p}、AIC、BIC、调整的R^2$

$C_{p}$ 值
采用最小二乘法拟合一个包含d个预测变量的模型，其 $C_{p}$ 值为：
$C_{p}=\frac{1}{n}\left(\mathrm{RSS}+2 d \hat{\sigma}^{2}\right)$
其中 $\hat{\sigma}^{2}$ 是标准线性回归模型中各个响应变量观测误差的方差 $\epsilon$ 的估计值，选择具有最低 $C_{p}$ 值的模型作为最优模型。
赤池信息量准则（Akaike information criterion, AIC）
$\mathrm{AIC}=\frac{1}{n \hat{\sigma}^{2}}\left(\mathrm{RSS}+2 d \hat{\sigma}^{2}\right)$
AIC准则适用于许多使用极大似然法进行拟合的模型。若标准线性回归模型的误差项服从高斯分布，极大似然估计和最小二乘估计是等价的。
对于最小二乘模型， $C_{p}$ 与AIC彼此成比例。
贝叶斯信息准则（Bayesian information criterion, BIC）
$\mathrm{BIC}=\frac{1}{n \hat{\sigma}^{2}}\left(\mathrm{RSS}+\log (n) d \hat{\sigma}^{2}\right)$
与 $C_{p}$ 类似，测试误差较低的模型BIC统计量取值较低，选择具有最低BIC的模型为最优模型。
BIC将 $C_{p}$ 中的 $\hat{\sigma}^{2}$ 替换为 $\log (n) d \hat{\sigma}^{2}$ ，n为观测数量，对于任意n>7，logn>2，BIC统计量通常给包含多个变量的模型进行较重的惩罚，与 $C_{p}$ 相比，得到的模型规模更小。
调整的 $R^2$