模型选择
1、训练误差和泛化误差
训练误差:模型在训练数据上的误差
泛化误差:模型在新数据上的误差(关心泛化误差)
2、验证数据集和测试数据集
验证数据集:用来评估弄模型好坏的数据集
一般50%训练数据集,50%作为验证数据集(用来调整超参数),验证数据集和训练数据集不能混在一起
测试数据集:只用一次的数据集(不能用来调超参数)
例如:未来的考试,kaggle私有排行榜中的数据集
论文中test data大部分实际上是验证数据集
3、K-则交叉验证——在没有足够多数据时使用
算法:将训练数据分割成k块,for i=1,...,k,使用第i块作为验证数据集,其余的作为训练数据集,报告k个验证集误差的平均
常用:K=5或10
过拟合和欠拟合
1、模型容量
模型容量:拟合各种函数的能力