一、模型选择
1、训练误差:模型在训练数据上的误差
泛化误差:模型在新数据上的误差
2、训练数据集:训练模型参数
验证数据集:一个用来评估模型好坏的数据集,用来选择模型超参数,不要跟训练数据混在一起
测试数据集:只用一次的数据集
3、k折交叉验证:在没有足够多数据时使用,常用k=5或10
二、过拟合和欠拟合
1、模型容量:
拟合各种函数的能力;
低容量的模型难以拟合训练数据;
高容量的模型可以记住所有的训练数据
2、估计模型容量
难以在不同的种类算法之间比较
给定一个模型种类,将有两个主要因素:参数的个数,参数值的选择范围
3、三阶多项式拟合(正常)
线性函数欠拟合
高阶多项式函数过拟合