学习笔记——模型自变量选择的准则-CSDN博客

本文链接：https://blog.csdn.net/weixin_44336181/article/details/106473327

需要评价回归模型最优的准则，来判断哪个模型性能最好。

残差平方和SSE越小，决定系数 $R^2$ 越大越好：并非如此，增加自变量个数会达到上述效果，但是考虑到多重共线性、变量测量误差累计、参数数目增加等因素，未必会好
自由度调整复决定系数达到最大：自变量增多，复决定系数增大，但是残差自由度减小（残差自由度等于样本个数减掉变量个数）。自由度减小意味着可靠性低，即区间预测的幅度变大，无实际应用意义。采用调整复决定系数： $adjR^2=1-\frac{n-1}{n-p-1}(1-R^2)$
赤池信息量(Akaike Information Criterion)达到最小：基于最大似然估计原理的模型选择准则 $AIC=-2lnL(\widehat \theta_L,x)+2p=>AIC=nln(SSE)+2p$ 其中 $lnL(\widehat\theta_L,x)$ 为模型似然函数，维数为p，n为样本个数。在回归建模过程中，对每一个模型计算AIC，其中该值最小的模型，就是最优回归模型。
统计量 $C_p$ 达到最小： $C-P=\frac{SSE_P}{\widehat\sigma^2}-n+2p=(n-m-1)\frac{SSE_P}{SSE_m}-n+2p$

自变量选择的方法

前进法：
- 思路：变量由少到多，每次增加一个，直至没有可引入的变量
- 具体做法：
1. 对所有m个自变量，分别对因变量y进行建模，建立m个一元线性回归方程
2. 对这m个一元线性回归方程的m个回归系数进行F检验，计算F统计量值，找到最大的一个 $F_j^1$
3. 将 $F_j^1$ 和预先设定的检验水平 $\alpha$ 对应的 $F$ 值比较，若 $F_j^1\geqslant F_{\alpha}(1,n-2)$ ,将自变量 $x_j$ 引入回归方程
4. 对 $x_j$ 与剩余的 $m - 1$ 个方程这种非 $x_j$ 的回归系数进行 $F$ 检验，挑选出最大的 $F$ 值 $F_k^2$ ,和 $\alpha$ 对应的临界值比较，若 $F_k^2 \geqslant F_\alpha(1,n-3)$ ,将 $x_k$ 引入回归方程
5. 重复上述步骤，直到没有符合引入条件的变量为止，得到最终的回归方程

后退法：

思路：变量由多到少，每次减少一个，直至没有可减少的变量
具体做法：
1.对所有m个自变量，对因变量y进行建模，建立一个m元线性回归方程
2.对这个m元线性回归方程的m个回归系数进行 $F$ 检验，计算 $F$ 统计量值，找到最小的一个 $F_j^1$
3.将 $F_j^1$ 和预先设定的检验水平 $\alpha$ 对应的 $F$ 值比较，若 $F_j^1\leqslant F_\alpha(1,n-m-1)$ ，将自变量 $x_j$ 剔除回归方程
4.将剩余 $m - 1$ 个自变量对因变量y进行建模，建立一个 $m - 1$ 元线性回归方程，对新的回归方程中的 $m - 1$ 个回归系数进行 $F$ 检验，选出最小的 $F$ 值和 $F_k^2$ ，和 $\alpha$ 对应的临界值比较，若 $F_k^2\leqslant F_\alpha(1,n-m)$ ,将 $x_k$ 剔出回归方程
5.重复上述步骤，直到没有符合剔除条件的变量为止，得到最终的回归方程

两者存在的问题：
前进法：不能反映引进新的自变量后的变化情况。环境不同，自变量的显著性也不同，而前进法的核心只是考量了某个环境下的自变量的显著性，没考虑不同环境下的显著性。一旦选入，不会剔除，同样对环境变化缺乏考量
后退法：计算量大，自变量个数从多到少，开始的计算量会较大，并且可能做了很多无用功。与前进法类似，未考虑环境变化带来的影响，缺乏对变化的考量，被剔除的变量后续不会考虑再次引入，及时在某些条件下，被剔除掉的变量显著性满足引入要求，即使优于当前方程中的某些变量
如果所有自变量都是独立的，理论上前进法和后退法得到的回归方程是一致的

逐步回归法