重抽样法
重抽样法:通过反复从训练集中抽取样本,对每一个样本用 同一种统计方法重新拟合
包括
- 交叉验证:用于模型评价(估计该统计学习方法的测试误差),模型选择(选择合适的光滑度)
- 自助法:测量准确度
1 交叉验证法(Cross Validation, CV)
在拟合过程中,保留训练集的一个子集,重新拟合,估计其测试误差。
1.1 验证集方法(Validation set approach)
方法原理:将观测数据分为训练集与验证集(保留集)。
- 拟合训练集
- 用拟合的模型预测验证集中的响应变量
- 得到测试误差(均方误差)
方法缺陷:
4. 测试错误率的波动会很大,取决于训练集与验证集的划分。
5. 只拟合了训练集,训练观测越少,统计方法的表现越差,导致验证集错误率被高估。
1.2 留一交叉验证法(leave-one-out-validation, LOOCV)
LOOCV原理:
- 将一个 ( x 1 , y 1 ) (x_{1},y_{1}) (x1,y1)作为验证集,剩余 n − 1 n-1 n−1个数据为训练集。训练集拟合模型,根据 x 1 x_{1} x1用模型预测 y ^ 1 \hat{y}_{1} y^1,得到渐进无偏估计 M S E 1 = ( y 1 − y ^ 1 ) 2 MSE_{1}=(y_{1}-\hat{y}_{1})^2 MSE1=(y1−y^1)2(高度波动性)。
- 将一个 ( x 2 , y 2 ) (x_{2},y_{2}) (x2,y2)作为验证集,剩余 n − 1 n-1