统计学习方法——统计学习
统计学习概论(二)
模型评估与模型选择(二)
前面接受了进行模型评估和选择会涉及到一些概念,这里我们介绍一些评估选择的方法。
正则化
模型选择的典型方法是正则化,正则化也是结构风险最小化策略的实现。在说明正则化之前,首先要提到奥卡姆剃刀原理,因为正则化是符合这个原理的。
奥卡姆剃刀原理:“如无必要,勿增实体”,即“简单有效原理”。
放在模型选择中也就是说在所有可能选择的模型中,应该选择既能很好地解释已知数据又是十分简单的模型。
前面已经介绍过加入正则化后的经验风险(结构风险),一般形式如下:
min f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) \mathop {\min }\limits_{f \in \mathcal{F}} \frac{1}{N}\sum\limits_{i = 1}^N {L\left( {
{y_i},f\left( {
{x_i}} \right)} \right) + \lambda J\left( f \right)} f∈FminN1i=1∑NL(yi,f(xi))+λJ(f)
其中第一项为经验风险,第二项为正则化项。
正则化的其他形式(在回归问题中,损失函数是平方损失,正则化项可以是参数向量的范数):
- L 2 L_2 L2范数: L ( w ) = 1 N ∑ i = 1 N ( f ( x i ; w ) − y i ) 2 + λ 2 ∥ w ∥ 2 L\left( w \right) = \frac{1}{N}\sum\limits_{i = 1}^N {
{
{\left( {f\left( {
{x_i};w} \right) - {y_i}} \right)}^2}} + \frac{\lambda }{2}{\left\| w \right\|^2} L(w)=N1i=1∑N(f(xi;w)−yi)2+2λ∥w∥2
其中 w w w表示参数向量, ∥ w ∥ \left\| w \right\| ∥w∥表示其 L 2 L_2 L2范数。式子前半部分计算的仍然是经验风险。 - L 1 L_1 L