目录
标准线性回归模型:
参数估计方法:最小二乘法。
不足:预测准确率不高,模型解释力不足。
- 预测准确率:
- 若响应变量和预测变量真实关系近似线性,则最小二乘的偏差较低;若n远大于p,则最小二乘的方差也较低;
- 若不满足n远大于p,则使用最小二乘可能导致过拟合;
- 若p>n,则最小二乘得到的系数估计结果不唯一:此时方差无穷大,无法使用最小二乘法。
- 模型解释力(解释效果):将无关变量的系数设置为0,并移除这些无关变量(去不相关),但最小二乘法很难将系数置为0。
改进方法:子集选择、压缩估计、降维法。
一、子集选择
1、原理
从p个预测变量中挑选出与响应变量相关的变量形成子集,再对缩减的变量集合使用最小二乘法。
2、最优子集选择
(1)原理
对p个预测变量的所有可能组合分别使用最小二乘回归进行拟合。对含有一个预测变量的模型,拟合p个模型;对含有两个预测变量的模型,拟合(p/2)=p(p-1)/2个模型,依次类推。最后在所有可能模型中选取一个最优模型。
(2)不足:计算效率不高。
(3)改进:分支定界法。
①基本思想
- 分支定界法常以广度优先或者以最小耗费(最大效益)优先的方式搜索问题的解空间树。
- 每个活结点只有一次机会成为扩展结点,成为扩展结点后,会一次性产生所有儿子结点。其中,不可行解或非最优解的儿子结点被舍弃,其余儿子结点被加入活结点表中。
- 继续从活结点表中取下一结点成为扩展结点,并重复上述结点扩展过程,直到找到所需的解或活结点表为空。
3、逐步选择
(1)作用
改进最优子集选择法存在的不足,即限制搜索空间,提高运算效率。
(2)向前逐步选择
①基本思想
以一个不包含任何预测变量的零模型为起点,依次往模型中添加变量,直到所有的预测变量都包含在模型中。
②算法
③优点:拟合模型个数减少,仅需从p-k个模型中选择最优模型,运算效率高。
④缺点:无法保证找到的模型是所有个模型中最优的。
(3)向后逐步选择
①基本思想
以包含全部p个变量的全模型为起点,逐次迭代,每次移除一个对模型拟合结果最不利的变量。
②算法
③缺点:无法保证得到的模型是包含p个预测变量子集的最优模型。
(4)混合方法
4、选择最优模型
(1)常用方法
①根据过拟合导致的偏差对训练误差进行调整,间接的估计测试误差;
②提高验证集方法或者交叉验证法,直接估计测试误差。
(2)Cp、AIC、BIC、与调整R2
-
Cp值方法
①计算公式
②特点
a.惩罚项用于调整训练误差倾向于低估测试误差这一现象;
b.Cp是测试均方误差的无偏估计;
c.Cp值越小模型越好。
-
AIC准则
①计算公式
②特点
a.AIC值越小越好。
-
BIC准则
①计算公式
②特点
a.将Cp中的惩罚项替换为;
b.得到的模型规模更小;
c.将log(n)与2比较大小,可能log(n)大于2,即BIC调节范围大于AIC;
d.BIC值越小越好。
-
调整R2
①计算公式
②特点
a.调整R2值越大,模型测试误差越小,模型越好;
b.拥有最大调整R2模型只包含了正确的变量,而没有冗余变量;
c.调整R2统计量对纳入不必要变量的模型引入了惩罚。
(3)验证与交叉验证
给出了测试误差的一个直接估计,并且对真实潜在模型有较少的假设。适用范围更广,即使在很难确定模型自由度,或者难以估计误差方差的情况下仍可使用。
二、压缩估计方法
1、原理
基于全部p个预测变量进行模型的拟合。与最小二乘法相比,该方法可以将估计系数往0的方向进行压缩。通过系数缩减(正则化)减少方差。