ISLR统计学习导论之R语言应用(六):R语言实现变量选择和岭回归
在特征选择中,我们传统的统计方法有向前逐步回归,向后逐步回归等。然后我们可以选择对应的评估指标来确定最佳变量个数。例如AIC,BIC,调整后r2等。但是此时我们是对所有的数据来进行训练拟合的,但是我们往往更关心一个模型在未知数据集上的效果。因此我们可以使用交叉验证的方法来帮助我们比较不同模型的效果。一般我们选取k折交叉验证,k=10 or k=5。然后根据k折交叉验证的最后结果来确定我们选择的变量。最后在完整的数据集上进行训练,得到最终模型的估计值。这一章介绍的是最基本的特征选择的方法,
复制链接