1.4 模型评估与模型选择
1.4.1 训练误差与测试误差
统计学习的目的是使学到的模型不仅对已知数据而且对未知数据都能有很好的预测能力。当损失函数给定时,基于损失函数的模型的训练误差和测试误差就自然成为学习方法评估的标准。
学习到的模型为
Y
=
f
^
(
X
)
Y=\hat{f}(X)
Y=f^(X),则训练误差是模型
Y
=
f
^
(
X
)
Y=\hat{f}(X)
Y=f^(X)关于训练数据集的平均损失为:
R
e
m
p
(
f
^
)
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
^
(
x
i
)
)
R_{emp}(\hat{f})=\frac{1}{N}\displaystyle \sum_{i=1}^{N}L(y_i,\hat{f}(x_i))
Remp(f^)=N1i=1∑NL(yi,f^(xi))N为训练样本容量。
测试误差是模型
Y
=
f
^
(
X
)
Y=\hat{f}(X)
Y=f^(X)关于测试数据集的平均损失:
e
t
e
s
t
=
1
N
′
∑
i
=
1
N
′
L
(
y
i
,
f
^
(
x
i
)
)
e_{test}=\frac{1}{N'}\displaystyle \sum_{i=1}^{N'}L(y_i,\hat{f}(x_i))
etest=N′1i=1∑N′L(yi,f^(xi))
N
′
N'
N′是测试样本容量。
1.4.2 过拟合与模型选择
过拟合是指学习时选择的模型所包含的参数过多,以至于出现这一模型对一直数据预测的很好,但对未知数据预测的很差的现象。则可以说模型选择旨在避免过拟合并提高模型的预测能力。
当模型的复杂度增大时,训练误差会逐渐减小并趋于0,而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样在学习模型时就要防止过拟合,进行最有的模型选择,即选择复杂度适当的模型
1.5 正则化与交叉验证
1.5.1 正则化
正则化是模型选择的典型方法,其是结构风险最小化策略的实现,是经验风险上加上一个正则化项。正则化一般形式为:
min
f
∈
F
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
+
λ
J
(
f
)
\displaystyle \min_{f\in{F}}\frac{1}{N}\displaystyle \sum_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f)
f∈FminN1i=1∑NL(yi,f(xi))+λJ(f)
其中第1项是经验风险,第2项是正则化项。则正则化的作用是选择经验风险与模型复杂度同时较小的模型。
正则化符合奥卡姆剃刀原理,此原理应用于模型选择时变为以下想法:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是最好的模型,也就是应该选择的模型。
1.5.2 交叉验证
交叉验证也是一种常用的模型选择方法。其基本思想是重复的使用数据:把给定的数据进行切分,将切分的数据组合为训练集和测试集,在次基础上反复地进行训练,测试及模型选择。一般有3种常用的方法。
- 简单交叉验证,就是切分数据集,分为训练集和测试集,然后在各种条件下训练模型,从而得到不同的模型,在测试集上评价各个模型的测试误差,选出测试误差最小的模型。
- S折交叉验证,是随机地将已给数据切分为S个互不相交,大小相同的子集,然后利用S-1个子集的数据训练模型,利用余下的自己测试模型,将这一过程对可能的S中选择重复进行,最后选出S次测平中平均测试误差最小的模型。
- 留一交叉验证,S折交叉验证的特殊性情形是S=N(数据集容量),称为留一交叉验证,一般用于数据缺乏的情况下。
持续更新中……