一、经验风险最小化
1.1 经验风险最小化理论
考虑线性分类模型
h
θ
(
x
)
=
g
(
θ
T
x
)
g
(
z
)
=
1
{
z
≥
0
}
h_{\bm\theta}(\bm{x}) = g(\bm\theta^T\bm{x}) \\ g(z) = 1\{z \ge 0\}
hθ(x)=g(θTx)g(z)=1{z≥0}考虑训练样本
{
(
x
(
i
)
,
y
(
i
)
)
}
i
=
1
m
\{(\bm{x}^{(i)}, y^{(i)})\}_{i=1}^m
{(x(i),y(i))}i=1m,定义训练偏差
ϵ
^
(
h
θ
)
=
∑
i
=
1
m
1
{
h
θ
(
x
(
i
)
)
≠
y
(
i
)
}
/
m
\hat\epsilon(h_{\bm\theta}) = \sum_{i=1}^m1\{h_{\bm\theta}(\bm{x}^{(i)}) \ne y^{(i)}\} / m
ϵ^(hθ)=i=1∑m1{hθ(x(i))=y(i)}/m即训练样本分类错误所占的比例。对于非训练样本的同分布样本,定义一般误差
ϵ
(
h
θ
)
=
p
(
h
(
x
)
≠
y
)
\epsilon(h_{\bm\theta}) = p(h(\bm{x}) \ne y)
ϵ(hθ)=p(h(x)=y)机器学习的目的是选用参数值使训练误差最小化,也成为经验风险最小化【Empirical Risk Minimization,ERM】,形如
θ
^
=
a
r
g
m
i
n
ϵ
^
(
h
θ
)
\hat\bm\theta = argmin\ \hat\epsilon(h_{\bm\theta})
θ^=argmin ϵ^(hθ) 从另一个方向讲,定义线性分类算法的集合
H
=
{
h
θ
,
θ
∈
R
p
×
1
}
H = \{h_{\bm\theta}, \bm\theta \in \bm{R}^{p×1}\}
H={hθ,θ∈Rp×1}那么ERM也可以定义为
h
^
=
a
r
g
m
i
n
h
∈
H
ϵ
^
(
h
)
\hat{h} = argmin_{h \in H}\ \hat\epsilon(h)
h^=argminh∈H ϵ^(h)更一般的,对于任意算法,包括深度学习等,上述表述均成立。ERM是一种合理的算法,可以带来较小的一般误差。
1.2 一致收敛
首先介绍联合界引理,令
A
1
,
.
.
.
A
k
A_1, ...A_k
A1,...Ak表示k个事件,其不一定独立,则
P
(
A
1
∪
A
2
∪
.
.
.
∪
A
k
)
≤
P
(
A
1
)
+
.
.
.
+
P
(
A
k
)
P(A_1\cup A_2 \cup ... \cup A_k) \le P(A_1) + ... + P(A_k)
P(A1∪A2∪...∪Ak)≤P(A1)+...+P(Ak)直观来讲,概率图的并集不大于每个概率图之和。
再介绍霍夫丁【Hoeffding】不等式,对于独立同分布的随机变量
z
1
,
.
.
.
,
z
m
z_1, ..., z_m
z1,...,zm,其服从于均值为
ϕ
\phi
ϕ的伯努利分布,即
ϕ
^
=
∑
i
=
1
m
z
i
/
m
\hat\phi = \sum_{i=1}^m z_i / m
ϕ^=i=1∑mzi/m对于给定的
γ
\gamma
γ,有
p
(
∣
ϕ
^
−
ϕ
∣
>
γ
)
≤
2
e
x
p
{
−
2
γ
2
m
}
p(|\hat\phi - \phi| > \gamma) \le 2exp\{-2\gamma^2m\}
p(∣ϕ^−ϕ∣>γ)≤2exp{−2γ2m}其直观意义为,根据中心极限定理,大量样本估计的
ϕ
^
\hat\phi
ϕ^会收敛到
ϕ
\phi
ϕ为中心的高斯分布,而
γ
\gamma
γ从高斯分布上取得了估计偏差的概率。但实际上,霍夫丁不等式对任意样本数量均成立。
令H为包含k个假设的集合
H
=
{
h
k
}
H = \{h_k\}
H={hk},其中的元素均是无参数的映射。对于给定数据集,从k个函数中选取一个,使得训练误差最小,形如
h
^
=
a
r
g
m
i
n
h
∈
H
ϵ
^
(
h
)
\hat{h} = argmin_{h \in H}\ \hat\epsilon(h)
h^=argminh∈H ϵ^(h)ERM理论认为,训练误差是一个对一般误差很好的近似,即若训练误差最小化,那么一般误差也不会太大。
考虑逻辑回归中,任选
h
∈
H
h \in H
h∈H,并定义
z
i
=
1
{
h
(
x
(
i
)
)
≠
y
(
i
)
}
z_i = 1\{h(\bm{x}^{(i)}) \ne y^{(i)}\}
zi=1{h(x(i))=y(i)}那么
p
(
z
i
=
1
)
=
ϵ
^
(
h
)
=
∑
i
=
1
m
z
i
/
m
\begin{aligned}p(z_i = 1)& = \hat\epsilon(h) \\ &= \sum_{i=1}^m z_i / m \end{aligned}
p(zi=1)=ϵ^(h)=i=1∑mzi/m根据霍夫丁不等式,有
p
(
∣
ϵ
(
h
)
−
ϵ
^
(
h
)
∣
>
γ
)
≤
2
e
x
p
{
−
2
γ
2
m
}
p(|\epsilon(h) - \hat\epsilon(h)| > \gamma) \le 2exp\{-2\gamma^2m\}
p(∣ϵ(h)−ϵ^(h)∣>γ)≤2exp{−2γ2m}即训练误差是一般误差的很好的估计。再定义事件
A
A
A为
∣
ϵ
(
h
)
−
ϵ
^
(
h
)
∣
>
γ
|\epsilon(h) - \hat\epsilon(h)|> \gamma
∣ϵ(h)−ϵ^(h)∣>γ,即训练误差与一般误差相差较大,那么
p
(
A
)
≤
2
e
x
p
{
−
2
γ
2
m
}
p(A) \le 2exp\{-2\gamma^2m\}
p(A)≤2exp{−2γ2m}那么对于H内的所有映射,发生训练误差与一般误差相差较大的概率为
p
(
A
1
∪
A
2
∪
.
.
.
∪
A
m
)
≤
∑
i
=
1
k
p
(
A
i
)
≤
2
k
e
x
p
{
−
2
γ
2
m
}
\begin{aligned} p(A_1\cup A_2 \cup ... \cup A_m) \le& \sum_{i=1}^kp(A_i) \\ \le& 2kexp\{-2\gamma^2m\} \end{aligned}
p(A1∪A2∪...∪Am)≤≤i=1∑kp(Ai)2kexp{−2γ2m}那么一般误差与训练误差相差较小的概率为
p
(
A
ˉ
)
≥
1
−
2
k
e
x
p
{
−
2
γ
2
m
}
p(\bar{A}) \ge 1 - 2kexp\{-2\gamma^2m\}
p(Aˉ)≥1−2kexp{−2γ2m}即在一定的概率下,H中的所有h,都使得一般误差与训练误差相差在
γ
\gamma
γ内。当
m
m
m足够大时,H内的所有训练误差均收敛于一般误差,这称为一致收敛。
根据一致收敛理论,给定
γ
\gamma
γ与容错率
σ
\sigma
σ,可以计算出所需的样本数量
m
m
m。令
σ
=
2
k
e
x
p
{
−
2
γ
2
m
}
\sigma = 2kexp\{-2\gamma^2m\}
σ=2kexp{−2γ2m}那么
m
≥
1
/
2
σ
2
⋅
l
o
g
(
2
k
/
σ
)
m \ge 1/2\sigma^2·log(2k / \sigma)
m≥1/2σ2⋅log(2k/σ)使得在
1
−
σ
1 - \sigma
1−σ的概率下,
∣
ϵ
(
h
)
−
ϵ
^
(
h
)
∣
≤
γ
|\epsilon(h) - \hat\epsilon(h)| \le \gamma
∣ϵ(h)−ϵ^(h)∣≤γ对所有H中的映射成立,这称为样本复杂度界。计算机科学一般认为,
∀
k
,
l
o
g
k
≤
30
\forall k, log k \le 30
∀k,logk≤30,即在H中追加映射,样本数量也不会有太多的提升。一般来讲,在求解界时,一些常量是无关紧要的,故可以写成
m
=
O
(
1
/
σ
2
⋅
l
o
g
(
k
/
σ
)
)
m = O(1/\sigma^2·log(k / \sigma))
m=O(1/σ2⋅log(k/σ))同理,根据一致收敛理论,给定容错率
σ
\sigma
σ与样本数
m
m
m,可以计算出偏差
γ
=
(
1
/
2
m
⋅
l
o
g
(
2
k
/
σ
)
)
1
/
2
\gamma = (1/2m·log(2k/\sigma))^{1/2}
γ=(1/2m⋅log(2k/σ))1/2。
1.3 偏差方差权衡
在一致收敛的条件下,有
∀
h
∈
H
,
∣
ϵ
(
h
)
−
ϵ
^
(
h
)
∣
≤
γ
\forall h \in H, |\epsilon(h) - \hat\epsilon(h)| \le \gamma
∀h∈H,∣ϵ(h)−ϵ^(h)∣≤γ。根据ERM理论,令
h
^
=
a
r
g
m
i
n
h
∈
H
ϵ
^
(
h
)
\hat{h} = argmin_{h \in H}\ \hat\epsilon(h)
h^=argminh∈H ϵ^(h)并定义取得最小一般误差的映射
h
^
∗
=
a
r
g
m
i
n
h
∈
H
ϵ
(
h
)
\hat{h}^* = argmin_{h \in H}\ \epsilon(h)
h^∗=argminh∈H ϵ(h)根据一致收敛理论,有
ϵ
(
h
^
)
≤
ϵ
^
(
h
^
)
+
γ
≤
ϵ
^
(
h
^
∗
)
+
γ
≤
ϵ
(
h
^
∗
)
+
2
γ
\begin{aligned} \epsilon(\hat{h}) &\le \hat\epsilon(\hat{h}) + \gamma \\&\le \hat\epsilon(\hat{h}^*) + \gamma \\&\le \epsilon(\hat{h}^*) + 2\gamma \end{aligned}
ϵ(h^)≤ϵ^(h^)+γ≤ϵ^(h^∗)+γ≤ϵ(h^∗)+2γ因此在
H
H
H为有限集的情况下,给定容错率
σ
\sigma
σ与样本数
m
m
m,有
ϵ
(
h
^
)
≤
m
i
n
h
∈
H
ϵ
(
h
)
+
2
(
1
/
2
m
⋅
l
o
g
(
2
k
/
σ
)
)
1
/
2
\epsilon(\hat{h}) \le min_{h \in H}\ \epsilon(h) + 2(1/2m·log(2k/\sigma))^{1/2}
ϵ(h^)≤minh∈H ϵ(h)+2(1/2m⋅log(2k/σ))1/2即训练误差最小的映射与一般误差最小的映射的误差在一定范围内。
对于不同的拟合,若增大H内映射的数量,那么
ϵ
\epsilon
ϵ项可能会减小,但
γ
\gamma
γ项的
k
k
k会增大,这种现象称为偏差方差权衡,即使用更多的假设,可能找到更好的函数拟合模型,但不能精确拟合模型的风险也随之提高。
概括来讲,在模型过于简单时,训练误差与一般误差的偏差较小,但误差过高,称为欠拟合;在模型过于复杂时,训练误差降低,但训练误差与一般误差的偏差过高,称为过拟合。
二、VC维度
2.1 分散与VC维
给定一个由d个点构成的集合
S
=
{
x
(
d
)
}
S = \{x^{(d)}\}
S={x(d)},如果一个假设类
H
H
H能够实现集合
S
S
S的任意一种标记方式,称为
H
H
H能够分散
S
S
S。类
H
H
H能够分散的最大集合
S
S
S的大小称为
H
H
H的VC【Vapnik-Chervonenkis】维度,记
V
C
(
H
)
VC(H)
VC(H)。
考虑二维空间的线性分类器,存在某种分布3个样本点能被
H
H
H分散,但任何分布的4个样本点都不能被
H
H
H分散,即其VC维为3。而
n
n
n维空间的VC维为
n
+
1
n + 1
n+1。
2.2 无限维经验风险最小化理论
对于包含k个假设的集合
H
=
{
h
k
}
H = \{h_k\}
H={hk},ERM理论认为,在
1
−
σ
1 - \sigma
1−σ的概率下,一致收敛所需要的样本数量为
m
=
O
(
1
/
σ
2
⋅
l
o
g
(
k
/
σ
)
)
m = O(1/\sigma^2·log(k/\sigma))
m=O(1/σ2⋅log(k/σ))一般来讲,一个线性决策边界组成的
h
k
h_k
hk,其参数以
d
d
d个实数作为参数,考虑
n
n
n维逻辑回归问题,则
h
k
h_k
hk以
n
+
1
n + 1
n+1个实数作为参数。那么在计算机科学中,由于二进制浮点数的限制,所有k个假设的
d
d
d的组合情况是有限的,即
k
=
2
(
d
c
)
k = 2^{(dc)}
k=2(dc)其中
c
c
c是数据位数,故
m
≥
1
/
2
σ
2
⋅
l
o
g
(
2
k
/
σ
)
=
O
(
d
⋅
l
o
g
(
1
/
σ
)
/
σ
2
)
\begin{aligned} m &\ge 1/2\sigma^2·log(2k / \sigma) \\ &= O(d·log(1/\sigma)/\sigma^2) \end{aligned}
m≥1/2σ2⋅log(2k/σ)=O(d⋅log(1/σ)/σ2)即所需的样本必须是上述式的数量级,其表明了所需的样本大致与假设类的参数数目呈线性关系。而不考虑计算机科学,有一种更加正确的表述。
Vapnik与Chervonenkis证明了,给定集合
H
H
H,令
V
C
(
H
)
=
d
VC(H) = d
VC(H)=d,那么在
1
−
σ
1 - \sigma
1−σ的概率下,有
∣
ϵ
(
h
)
−
ϵ
^
(
h
)
∣
≤
O
(
(
d
/
m
⋅
l
o
g
(
m
/
d
)
+
1
/
m
⋅
l
o
g
(
1
/
σ
)
)
1
/
2
)
|\epsilon(h) - \hat\epsilon(h)| \le O((d/m·log(m/d)+1/m·log(1/\sigma))^{1/2})
∣ϵ(h)−ϵ^(h)∣≤O((d/m⋅log(m/d)+1/m⋅log(1/σ))1/2)即一致收敛,以及在
1
−
σ
1 - \sigma
1−σ的概率下,有
ϵ
(
h
^
)
≤
m
i
n
h
∈
H
ϵ
(
h
)
+
O
(
(
d
/
m
⋅
l
o
g
(
m
/
d
)
+
1
/
m
⋅
l
o
g
(
1
/
σ
)
)
1
/
2
)
\epsilon(\hat{h}) \le min_{h \in H}\ \epsilon(h) + O((d/m·log(m/d)+1/m·log(1/\sigma))^{1/2})
ϵ(h^)≤minh∈H ϵ(h)+O((d/m⋅log(m/d)+1/m⋅log(1/σ))1/2)在满足一致收敛的条件下,有
m
=
O
(
d
)
m = O(d)
m=O(d)即样本量需要与
H
H
H的VC维呈线性关系。
2.3 SVM的VC维
事实证明,即使使用核函数将样本映射到高维空间,具有较大间隔的线性分类器的假设类依然有比较低的VC维。考虑一定数量的样本点,其假设类包含了以较大的间隔分隔点集合的边界。若仅考虑半径为
R
R
R范围内的样本点,以及间隔至少为
γ
\gamma
γ的线性分类器构成的假设类
H
H
H,那么
V
C
(
H
)
≤
⌈
R
2
/
4
γ
2
⌉
+
1
VC(H)\le \lceil R^2/4\gamma^2 \rceil + 1
VC(H)≤⌈R2/4γ2⌉+1即仅包含较大间隔线性分类器的假设类的VC维是有上界的。其表明VC维的上界不依赖于样本的维度。
ERM的损失函数可以认为是
1
{
h
θ
(
x
)
≠
y
}
1\{h_\bm\theta(\bm{x}) \ne y\}
1{hθ(x)=y},目的是选取
θ
\bm\theta
θ使得其最小,是一个非凸的阶跃函数。而逻辑回归,SVM都可以看作该问题的一种凸性近似。
三、模型选择算法
根据ERM,偏差和方差之间存在权衡,即不应该选择过于简单或者过于复杂的模型。模型选择算法提供了一类方法,可以自动的在偏差与方差之间权衡。
3.1 保留交叉验证
保留交叉验证是一种标准的模型选取方法,将给定的训练集随机划分为两个子集,一个称为训练子集,另一个称为保留交叉验证子集。使用训练子集训练模型,并使用保留交叉验证子集进行测试,选择最小测试误差的模型作为结果。
一般的,训练子集占有训练集的70%,保留交叉验证子集占有30%,之后可以使用100%的数据对选出的模型进行重新训练。
3.2 k重交叉验证
有时,数据的获取是困难的,使用30%的数据来选择模型的代价过大。因此,为了提高数据的使用率,使用保留交叉验证的一种变种,称为k重交叉验证。
考虑训练集,将其划分为k部分,通常情况下,k的取值为5或10。重复的使用其中k-1个部分进行训练,并使用剩余的部分进行测试,最后将k个结果求取平均,选择最小测试误差的模型作为结果,并使用100%的数据对选出的模型进行重新训练。其明显的缺点为需要大量的计算。
对于m个样本时,k取m-1的情况,称为留1交叉验证,适用于样本较少的情况。
四、特征选择
对于很多机器学习问题,需要面对非常高维的特征空间,输入特征向量
x
\bm{x}
x的维数可能非常高,可能会引起过拟合问题。减少特征数量,也许可以减少学习算法的方差,降低过拟合的风险。
4.1 封装特征选择算法
前向搜索算法是一种特征选择的有效方法。其算法流程为
(1)初始化特征子集
F
F
F为
∅
∅
∅;
(2)对于第i个特征
x
i
x_i
xi,分别尝试加入到
F
F
F中,对模型进行交叉验证。
(3)
F
=
F
∪
x
i
F = F \cup x_i
F=F∪xi,其中
x
i
x_i
xi是效果最好的特征。并迭代(2)-(3),知道到达结束条件,如模型指标,特征数量。
同理的后向搜索算法是也一种特征选择的有效方法。
上述算法像一个包装一样封装在学习算法外面,即进行特征选择时,需要重复的使用学习算法训练模型,并根据模型的结果选择特征子集,其称为封装特征选择算法。其主要的缺点是需要大量的计算。
4.2 过滤特征选择算法
该算法的一般误差不会太低,从而导致假设的工作效果不是很好,但其的计算量较小。其基本思想为,对于每个特征,尝试计算一些衡量标准,衡量其对结果的影响,并选出最具有代表性的特征。