统计学习基础——第六章线性模型选择与正则化

最新推荐文章于 2022-12-15 21:51:57 发布

无所求275

最新推荐文章于 2022-12-15 21:51:57 发布

阅读量1.5k

点赞数

分类专栏：统计学习导论文章标签：统计模型 r语言统计学

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_61586198/article/details/121683354

版权

本文详细介绍了统计学习中的线性模型选择和正则化方法，包括子集选择、压缩估计（岭回归和lasso）、降维方法（主成分分析和偏最小二乘回归）以及在高维问题中的应用。通过对Cp、AIC、BIC等准则的讨论，探讨了如何在预测准确性和模型解释力之间找到平衡。

摘要由CSDN通过智能技术生成

目录

一、子集选择

2、最优子集选择

（2）不足：计算效率不高。

（3）改进：分支定界法。

3、逐步选择

（2）向前逐步选择

（3）向后逐步选择

（4）混合方法

4、选择最优模型

（1）常用方法

（2）Cp、AIC、BIC、与调整R2

（3）验证与交叉验证

二、压缩估计方法

（1）表达式

（1）表达式

4、对比lasso和岭回归

（1）相同点

（2）不同点

（3）n=p时β的估计形式

5、选择调节参数

三、降维方法

1、主成分分析（PCA）

（1）基本思想

（5）求解主成分

(6)主成分性质

（7）主成分回归

2、偏最小二乘回归（PLS）

四、高维问题

1、在高维度下，最小二乘法无法实施

2、Cp、AIC、BIC方法不适合高维数据

标准线性回归模型： $Y=\beta_0+\beta_1X_1+\cdots +\beta_p+X_p+\varepsilon$

参数估计方法：最小二乘法。

不足：预测准确率不高，模型解释力不足。

预测准确率：

若响应变量和预测变量真实关系近似线性，则最小二乘的偏差较低；若n远大于p，则最小二乘的方差也较低；
若不满足n远大于p，则使用最小二乘可能导致过拟合；
若p>n，则最小二乘得到的系数估计结果不唯一：此时方差无穷大，无法使用最小二乘法。

模型解释力（解释效果）：将无关变量的系数设置为0，并移除这些无关变量（去不相关），但最小二乘法很难将系数置为0。

改进方法：子集选择、压缩估计、降维法。

一、子集选择

1、原理

从p个预测变量中挑选出与响应变量相关的变量形成子集，再对缩减的变量集合使用最小二乘法。

2、最优子集选择

（1）原理

对p个预测变量的所有可能组合分别使用最小二乘回归进行拟合。对含有一个预测变量的模型，拟合p个模型；对含有两个预测变量的模型，拟合（p/2）=p(p-1)/2个模型，依次类推。最后在所有可能模型中选取一个最优模型。

（2）不足：计算效率不高。

（3）改进：分支定界法。

①基本思想

分支定界法常以广度优先或者以最小耗费（最大效益）优先的方式搜索问题的解空间树。
每个活结点只有一次机会成为扩展结点，成为扩展结点后，会一次性产生所有儿子结点。其中，不可行解或非最优解的儿子结点被舍弃，其余儿子结点被加入活结点表中。
继续从活结点表中取下一结点成为扩展结点，并重复上述结点扩展过程，直到找到所需的解或活结点表为空。

3、逐步选择

（1）作用

改进最优子集选择法存在的不足，即限制搜索空间，提高运算效率。

（2）向前逐步选择

①基本思想

以一个不包含任何预测变量的零模型为起点，依次往模型中添加变量，直到所有的预测变量都包含在模型中。

②算法

③优点：拟合模型个数减少，仅需从p-k个模型中选择最优模型，运算效率高。

④缺点：无法保证找到的模型是所有 $2^p$ 个模型中最优的。

（3）向后逐步选择

①基本思想

以包含全部p个变量的全模型为起点，逐次迭代，每次移除一个对模型拟合结果最不利的变量。

②算法

③缺点：无法保证得到的模型是包含p个预测变量子集的最优模型。

（4）混合方法

4、选择最优模型

（1）常用方法

①根据过拟合导致的偏差对训练误差进行调整，间接的估计测试误差；

②提高验证集方法或者交叉验证法，直接估计测试误差。

（2）Cp、AIC、BIC、与调整R2

Cp值方法

①计算公式

$C_p=\frac{1}{n}(RSS+2d\hat{{\sigma}^2})$

②特点

a.惩罚项 $2d\hat{{\sigma}^2}$ 用于调整训练误差倾向于低估测试误差这一现象；

b.Cp是测试均方误差的无偏估计；

c.Cp值越小模型越好。

AIC准则

①计算公式

$AIC=\frac{1}{n\hat{{\sigma}^2}}(RSS+2d\hat{{\sigma}^2})=\frac{1}{\hat{{\sigma}^2}}C_p$

②特点

a.AIC值越小越好。

BIC准则

①计算公式

$BIC=\frac{1}{n}(RSS+log(n)d\hat{{\sigma}^2})$

②特点

a.将Cp中的惩罚项替换为 $log(n)d\hat{{\sigma}^2}$ ；

b.得到的模型规模更小；

c.将log(n)与2比较大小，可能log（n）大于2，即BIC调节范围大于AIC；

d.BIC值越小越好。

调整R2

①计算公式

$adjR^2=1-\frac{RSS/(n-d-1)}{TSS/(n-1)}$

②特点

a.调整R2值越大，模型测试误差越小，模型越好；

b.拥有最大调整R2模型只包含了正确的变量，而没有冗余变量；

c.调整R2统计量对纳入不必要变量的模型引入了惩罚。

（3）验证与交叉验证

给出了测试误差的一个直接估计，并且对真实潜在模型有较少的假设。适用范围更广，即使在很难确定模型自由度，或者难以估计误差方差的情况下仍可使用。

二、压缩估计方法

1、原理

基于全部p个预测变量进行模型的拟合。与最小二乘法相比，该方法可以将估计系数往0的方向进行压缩。通过系数缩减（正则化）减少方差。

最低0.47元/天解锁文章

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。