统计学习基础——第六章 线性模型选择与正则化

本文详细介绍了统计学习中的线性模型选择和正则化方法,包括子集选择、压缩估计(岭回归和lasso)、降维方法(主成分分析和偏最小二乘回归)以及在高维问题中的应用。通过对Cp、AIC、BIC等准则的讨论,探讨了如何在预测准确性和模型解释力之间找到平衡。
摘要由CSDN通过智能技术生成

目录

一、子集选择

1、原理

2、最优子集选择

(1)原理

(2)不足:计算效率不高。

(3)改进:分支定界法。

3、逐步选择

(1)作用

(2)向前逐步选择

(3)向后逐步选择

(4)混合方法

4、选择最优模型

(1)常用方法

(2)Cp、AIC、BIC、与调整R2

Cp值方法

AIC准则

BIC准则

调整R2

(3)验证与交叉验证

二、压缩估计方法

1、原理

2、岭回归

(1)表达式

(2)特点

(3)优点

(4)不足

3、lasso

(1)表达式

(2)特点

4、对比lasso和岭回归

(1)相同点

(2)不同点

(3)n=p时β的估计形式

 5、选择调节参数

(1)参数

(2)方法

三、降维方法

1、主成分分析(PCA)

(1)基本思想

(2)要求

(3)运用

(4)模型

(5)求解主成分

(6)主成分性质 

(7)主成分回归

2、偏最小二乘回归(PLS)

四、高维问题

1、在高维度下,最小二乘法无法实施

2、Cp、AIC、BIC方法不适合高维数据


标准线性回归模型:Y=\beta_0+\beta_1X_1+\cdots +\beta_p+X_p+\varepsilon

参数估计方法:最小二乘法。

不足:预测准确率不高,模型解释力不足。

  • 预测准确率:
  1. 若响应变量和预测变量真实关系近似线性,则最小二乘的偏差较低;若n远大于p,则最小二乘的方差也较低;
  2. 若不满足n远大于p,则使用最小二乘可能导致过拟合;
  3. 若p>n,则最小二乘得到的系数估计结果不唯一:此时方差无穷大,无法使用最小二乘法。
  • 模型解释力(解释效果):将无关变量的系数设置为0,并移除这些无关变量(去不相关),但最小二乘法很难将系数置为0。

改进方法:子集选择、压缩估计、降维法。

一、子集选择

1、原理

从p个预测变量中挑选出与响应变量相关的变量形成子集,再对缩减的变量集合使用最小二乘法。

2、最优子集选择

(1)原理

对p个预测变量的所有可能组合分别使用最小二乘回归进行拟合。对含有一个预测变量的模型,拟合p个模型;对含有两个预测变量的模型,拟合(p/2)=p(p-1)/2个模型,依次类推。最后在所有可能模型中选取一个最优模型。

(2)不足:计算效率不高。

(3)改进:分支定界法。

①基本思想

  • 分支定界法常以广度优先或者以最小耗费(最大效益)优先的方式搜索问题的解空间树。
  • 每个活结点只有一次机会成为扩展结点,成为扩展结点后,会一次性产生所有儿子结点。其中,不可行解或非最优解的儿子结点被舍弃,其余儿子结点被加入活结点表中。
  • 继续从活结点表中取下一结点成为扩展结点,并重复上述结点扩展过程,直到找到所需的解或活结点表为空。

3、逐步选择

(1)作用

改进最优子集选择法存在的不足,即限制搜索空间,提高运算效率。

(2)向前逐步选择

①基本思想

以一个不包含任何预测变量的零模型为起点,依次往模型中添加变量,直到所有的预测变量都包含在模型中。

②算法

③优点:拟合模型个数减少,仅需从p-k个模型中选择最优模型,运算效率高。

④缺点:无法保证找到的模型是所有2^p个模型中最优的。

(3)向后逐步选择

①基本思想

以包含全部p个变量的全模型为起点,逐次迭代,每次移除一个对模型拟合结果最不利的变量。

②算法

③缺点:无法保证得到的模型是包含p个预测变量子集的最优模型。

(4)混合方法

4、选择最优模型

(1)常用方法

①根据过拟合导致的偏差对训练误差进行调整,间接的估计测试误差;

②提高验证集方法或者交叉验证法,直接估计测试误差。

(2)Cp、AIC、BIC、与调整R2

  • Cp值方法

①计算公式

C_p=\frac{1}{n}(RSS+2d\hat{​{\sigma}^2})

②特点

a.惩罚项2d\hat{​{\sigma}^2}用于调整训练误差倾向于低估测试误差这一现象;

b.Cp是测试均方误差的无偏估计;

c.Cp值越小模型越好。

  • AIC准则

①计算公式

AIC=\frac{1}{n\hat{​{\sigma}^2}}(RSS+2d\hat{​{\sigma}^2})=\frac{1}{\hat{​{\sigma}^2}}C_p

②特点

a.AIC值越小越好。

  • BIC准则

①计算公式

 BIC=\frac{1}{n}(RSS+log(n)d\hat{​{\sigma}^2})

②特点

a.将Cp中的惩罚项替换为log(n)d\hat{​{\sigma}^2}

b.得到的模型规模更小;

c.将log(n)与2比较大小,可能log(n)大于2,即BIC调节范围大于AIC;

d.BIC值越小越好。

  • 调整R2

①计算公式

adjR^2=1-\frac{RSS/(n-d-1)}{TSS/(n-1)}

②特点

a.调整R2值越大,模型测试误差越小,模型越好;

b.拥有最大调整R2模型只包含了正确的变量,而没有冗余变量;

c.调整R2统计量对纳入不必要变量的模型引入了惩罚。

(3)验证与交叉验证

 给出了测试误差的一个直接估计,并且对真实潜在模型有较少的假设。适用范围更广,即使在很难确定模型自由度,或者难以估计误差方差的情况下仍可使用。

二、压缩估计方法

1、原理

基于全部p个预测变量进行模型的拟合。与最小二乘法相比,该方法可以将估计系数往0的方向进行压缩。通过系数缩减(正则化)减少方差。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值