1.4 模型评估与模型选择
1.4.1 训练误差与测试误差
训练误差
第一步得到的训练模型为,训练误差是模型关于训练数据集的平均损失:
其中N是训练样本容量
测试误差
测试误差是训练模型关于测试数据集的平均损失:
其中,N' 是测试样本容量
测试误差更加重要,训练误差不是很重要,因为测试误差反映的是对未知数据的预测能力。对未来数据的预测能力叫做泛化能力。
当损失函数是0-1损失时,测试误差就变成了误差率(error rate)
这里I为指示函数(Indicator function),即yi≠f(xi) 时为1,否则为0.
相应的,测试数据集上的准确率(accuracy)为
显然,rtest+etest=1
1.4.2 过拟合与模型选择
当模型复杂度增大时,训练误差会逐渐减小为0,而测试误差会先减小,随后增大。当选择的模型复杂度过大时,过拟合就会发生。所以,在学习时就要防止过拟合,进行最优的模型选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。
1.5 正则化与交叉验证
为了防止过拟合,就要选择复杂度适当的模型,模型选择的方法主要有正则化和交叉验证。
1.5.1 正则化
正则化就是在特征数量不变的情况下,减少某些θ参数的值,使其对预测结果(y)的贡献较小!
1.5.2 交叉验证