第2章 模型评估与选择
2.1 经验误差与过拟合
- 基础概念(一般字面意思能理解的我就不记录辽)
- 错误率
- 精度=1-错误率
- 误差:学习器的实际预测输出与样本的真实输出之间的差异
- 训练误差/经验误差:学习器在训练集上的误差
- 泛化误差:学习器在新样本上的误差
- 过拟合:
- 对于过拟合的更深理解:
- 过拟合是机器学习面临的关键障碍,各类学习算法都必然带有一些针对过拟合的措施;但是,过拟合是无法彻底避免的,我们所能做的只是“缓解”,或者说减小其风险。
- 有很多因素导致过拟合,最常见的是由于学习能力过于强大,把训练样本所包含的不太一般的特性学习都学到了。
- 模型选择:
2.2 评估方法
- 为什么互斥:希望模型能有举一反三的能力
2.2.1 留出法
2.2.2 交叉验证法
留一法:用n-1个样本训练,用1个样本测试,进行n次过程(白话)
2.2.3 自助法
目的:减少训练样本规模不同造成的影响,同时还能比较高效地进行实验估计