统计学习方法(1)——正则化、误差上界的证明等

本文链接：https://blog.csdn.net/winter_evening/article/details/70196011

First of all,最近打算系统的学习一遍《统计学习方法》这本书，把里面提到的概念和公式都好好学习和推导一遍.因此今后的一系列文章将会记录一些我在阅读本书时的一些心得体会.

统计学习作为数据挖掘的手段,其目的就是通过对已知数据的学习,对未知的数据进行预测.第一章中主要介绍了一些基本的概念如监督学习\非监督学习,损失函数的定义,过拟合与欠拟合,回归和分类任务等基本的概念在此我就不细说了,下面重点说几个印象比较深同时也是以前没怎么搞懂的知识点.

风险函数与正则化

我们知道损失函数(loss function)可以用来度量模型一次预测的好坏，风险函数可以用来评价模型在平均意义下的预测好坏。我们把理论上的模型 $f(x)$ 关于联合分布 $P(X,Y)$ 的平均意义下的损失称为风险函数或期望风险,如下(1)所示：

R e x p (f) = E p [L (Y, f (x))] = \int x * y L (y, f (x)) P (x, y) d x d y

$R_{exp}(f)=E_p[L(Y,f(x))]=\int_{x*y} {L(y,f(x))P(x,y)dxdy}$ (1)

我们学习的目标就是得到一个期望风险最小的模型，但是因为我们事先无法得到联合分布 $P(x,y)$ ，因此无法直接计算得到风险函数。于是人们提出了如下(2)的经验风险或者经验损失函数：

R e m p (f) = 1 N \sum i = 1 N L (y i, f (x i))

${R_{emp}}(f) = \frac{1}{N}\sum\limits_{i = 1}^N {L({y_i},f({x_i}))}$ (2)
当N趋向于无穷大时，经验风险就会趋向于我们所要的期望风险。但是现实情况下我们所获得的训练样本数往往不够，如果按照经验风险最小的约束进行训练，往往会导致模型出现过拟合的现象，我们往往会在经验风险后添加正则化项，从而实现结构风险最小，可有效的防止过拟合的发生.

R s r m (f) = 1 N \sum i = 1 N L (y i, f (x i)) + λ J (f)

${R_{srm}}(f) = \frac{1}{N}\sum\limits_{i = 1}^N {L({y_i},f({x_i}))}+\lambda J(f)$ (3)

其中 $J(f)$ 是关于模型f的正则化项，正则化项的具体形式可以有多种，如在回归问题中，可以是参数向量的 $L_2$ 范数，也可以是参数向量的 $L_1$ 范数。模型越复杂，则 $J(f)$ 越大，对模型的惩罚力度也就越大， $\lambda \ge 0$ 是一个可调的系数，结构风险最小即要求模型的经验风险和模型的复杂度同时达到最小。

泛化误差上界的证明

事实上，泛化误差就是指所学习到的模型的期望风险，书中提到了二分类问题的泛化误差上界的证明问题，在此也想结合自己的理解把证明过程推导一遍。

首先证明需要用到Hoeffding不等式
以下是Hoeffding不等式的一个推论

P (E S n - S n \geq t) \leq e x p (- 2 t 2 \sum N i = 1 ( b i - a i ) 2)

$P(E{S_n} - {S_n} \ge t) \le exp(\frac{{ - 2{t^2}}}{{\sum\nolimits_{i = 1}^N {{{({b_i} - {a_i})}^2}} }})$ (4)
其中

Sn=X1+X2+⋯+XN ${S_n} = {X_1} + {X_2} + \cdots + {X_N}$ ,令

R\^(f)=1NSn $\mathop R\limits^\^ (f) = \frac{1}{N}{S_n}$ 为经验风险，

R(f)=1NESn $R(f) = \frac{1}{N}E{S_n}$ 为期望风险，代入(4)式有

P(R(f)−R(f)\^≥tN)≤exp(−2t2∑Ni=1(bi−ai)2)

$P(R(f) - \mathop {R(f)}\limits^\^ \ge \frac{t}{N}) \le exp(\frac{{ - 2{t^2}}}{{\sum\nolimits_{i = 1}^N {{{({b_i} - {a_i})}^2}} }})$ (5)
令

ε=tN $\varepsilon = \frac{t}{N}$ ，对于二分类问题，我们有

[ai,bi] $[{a_i},{b_i}]$ =[0,1]，代入(5)式整理后有，

P(R(f)−R(f)\^≥ε)≤exp(−2Nε2)

$P(R(f) - \mathop {R(f)}\limits^\^ \ge \varepsilon ) \le exp( - 2N{\varepsilon ^2})$ (6)
因

F={f1,f2,f3,...,fd} $F = \{ {f_1},{f_2},{f_3},...,{f_d}\}$ 是一个集和，故

P(f∈F:R(f)−R(f)\^≥ε)=P(∪f∈F{R(f)−R(f)\^≥ε})≤∑f∈FP(R(f)−R(f)\^≥ε)≤dexp(−2Nε2)

$\begin{array}{l} P(f \in F:R(f) - \mathop {R(f)}\limits^\^ \ge \varepsilon ) = P(\mathop \cup \limits_{f \in F} \{ R(f) - \mathop {R(f)}\limits^\^ \ge \varepsilon \} )\\ {\rm{}} \le \sum\limits_{f \in F} {P(R(f) - \mathop {R(f)}\limits^\^ \ge \varepsilon )} \\ {\rm{}} \le dexp( - 2N{\varepsilon ^2}) \end{array}$ (7)
所以对于任意f，根据(7)式都有