2.3-第二类:不一致的情况讨论
引言:现实中,可能再假设集H里不存在与带标签的训练样本完全一致的假设,这种情况可以说对于自然问题比较常见。但,不一致,并不意味着不能学习,在训练样本上允许少量误差的不一致假设可能是满足使用要求的,并且这种假设在一定条件下是满足PAC理论的。
下面我们给出说法:
由Hoffding不等式,易知以下:
引理 2.3.1 若训练集S包含m个从分布D上独立同分布采样得到的样例,固定
ε
>
0
\varepsilon>0
ε>0,则对任意的
h
∈
H
h\in H
h∈H,有
P
S
∼
D
m
[
R
^
S
(
h
)
−
R
(
h
)
≥
ϵ
]
≤
exp
(
−
2
m
ϵ
2
)
P
S
∼
D
m
[
R
^
S
(
h
)
−
R
(
h
)
≤
−
ϵ
]
≤
exp
(
−
2
m
ϵ
2
)
P
S
∼
D
m
[
∣
R
^
S
(
h
)
−
R
(
h
)
∣
≥
ϵ
]
≤
2
exp
(
−
2
m
ϵ
2
)
\underset{S \sim D^m}{\mathbb{P}}\left[\widehat{R}_S(h)-R(h) \geq \epsilon\right] \leq \exp \left(-2 m \epsilon^2\right) \\ \underset{S \sim D^m}{\mathbb{P}}\left[\widehat{R}_S(h)-R(h) \leq-\epsilon\right] \leq \exp \left(-2 m \epsilon^2\right)\\ \underset{S \sim D^m}{\mathbb{P}}\left[\left|\widehat{R}_S(h)-R(h)\right| \geq \epsilon\right] \leq 2 \exp \left(-2 m \epsilon^2\right)
S∼DmP[R
S(h)−R(h)≥ϵ]≤exp(−2mϵ2)S∼DmP[R
S(h)−R(h)≤−ϵ]≤exp(−2mϵ2)S∼DmP[
R
S(h)−R(h)
≥ϵ]≤2exp(−2mϵ2)
推论2.3.2 - 单一假设的泛化界 若训练集S包含m个从D分布上随机独立同分布取出的样例,
ε
>
0
\varepsilon>0
ε>0,则对于任意某一个固定的
h
∈
H
h\in H
h∈H,有以下对于至少
1
−
δ
1-\delta
1−δ的概率成立:
R
^
S
(
h
)
−
log
2
δ
2
m
≤
R
(
h
)
≤
R
^
S
(
h
)
+
log
2
δ
2
m
\widehat{R}_S(h)-\sqrt{\frac{\log \frac{2}{\delta}}{2 m}} \leq R(h) \leq \widehat{R}_S(h)+\sqrt{\frac{\log \frac{2}{\delta}}{2 m}}
R
S(h)−2mlogδ2≤R(h)≤R
S(h)+2mlogδ2
推论2.3.2表明,样例数目m较大时,h的经验误差是其泛化误差很好的近似。
下面,举例说明上面个的推论。
【例-抛硬币】设想我们在抛一枚偏重的硬币,其向上的概率为p。而我们假设总是猜测抛硬币的结果是反面。那么,在这样的设定下,真实错误率为R(h) = p,对应地,通过i.i.d. 训练样本可以得到一个正面向上的经验概率
p
^
\hat{p}
p^,进而得到经验错误率为
R
^
(
h
)
=
p
^
\hat{R}(h) = \hat{p}
R^(h)=p^。根据推论2.3.2,我们有如下的保证:
∣
p
−
p
^
∣
≤
l
o
g
2
δ
2
m
|p-\hat{p}|\leq \sqrt{\frac{log \frac{2}{\delta}}{2m}}
∣p−p^∣≤2mlogδ2
因此,如果我们设定,
δ
=
0.02
\delta = 0.02
δ=0.02并采用500个训练样本,则以至少98%的概率,对于
p
^
\hat{p}
p^的精度有以下保证:
∣
p
−
p
^
∣
≤
log
(
10
)
1000
≈
0.048
|p-\widehat{p}| \leq \sqrt{\frac{\log (10)}{1000}} \approx 0.048
∣p−p
∣≤1000log(10)≈0.048
OK,例子就到这里,言归正传。
现在我们考虑这么一个问题,通过上面的推论2.3.2,我们能不能拿来直接用与PAC-Learnable得到返回的假设hs?
答案是否定的,因为推论2.3.2是针对某个单一的假设而言的,且其经验误差的期望等于泛化误差(y大数定律,第2.1节)但对于一个训练样本来说,当假设hs不固定时,泛化误差R(hs)就是一个随机变量,而一般与经验误差的期望E( R )(常数)不同。
引出,以下定理:
定理 2.3 令H为一个有限的假设集,则对于任意的
δ
>
0
\delta>0
δ>0,以至少为1-
δ
\delta
δ的概率,有下面的不等式成立:
∀
h
∈
H
,
R
(
h
)
≤
R
^
S
(
h
)
+
log
∣
H
∣
+
log
2
δ
2
m
\forall h \in \mathcal{H}, \quad R(h) \leq \widehat{R}_S(h)+\sqrt{\frac{\log |\mathcal{H}|+\log \frac{2}{\delta}}{2 m}}
∀h∈H,R(h)≤R
S(h)+2mlog∣H∣+logδ2
证明:
令
h
1
,
h
2
,
.
.
.
.
.
.
,
h
∣
H
∣
h_1 ,h_2 ,......,h_{|H|}
h1,h2,......,h∣H∣表示假设空间H中的假设,有:
P
[
∃
h
∈
H
∣
R
^
S
(
h
)
−
R
(
h
)
∣
>
ϵ
]
=
P
[
(
∣
R
^
S
(
h
1
)
−
R
(
h
1
)
∣
>
ϵ
)
∨
…
∨
(
∣
R
^
S
(
h
∣
H
∣
)
−
R
(
h
∣
H
∣
)
∣
>
ϵ
)
]
≤
∑
h
∈
H
P
[
∣
R
^
S
(
h
)
−
R
(
h
)
∣
>
ϵ
]
≤
2
∣
H
∣
exp
(
−
2
m
ϵ
2
)
.
\begin{array}{l} \mathbb{P}\left[\exists h \in \mathcal{H}\left|\widehat{R}_S(h)-R(h)\right|>\epsilon\right] \\ =\mathbb{P}\left[\left(\left|\widehat{R}_S\left(h_1\right)-R\left(h_1\right)\right|>\epsilon\right) \vee \ldots \vee\left(\left|\widehat{R}_S\left(h_{|\mathcal{H}|}\right)-R\left(h_{|\mathcal{H}|}\right)\right|>\epsilon\right)\right] \\ \leq \sum_{h \in \mathcal{H}} \mathbb{P}\left[\left|\widehat{R}_S(h)-R(h)\right|>\epsilon\right] \\ \leq 2|\mathcal{H}| \exp \left(-2 m \epsilon^2\right) . \end{array}
P[∃h∈H
R
S(h)−R(h)
>ϵ]=P[(
R
S(h1)−R(h1)
>ϵ)∨…∨(
R
S(h∣H∣)−R(h∣H∣)
>ϵ)]≤∑h∈HP[
R
S(h)−R(h)
>ϵ]≤2∣H∣exp(−2mϵ2).
所以,令
δ
=
2
∣
H
∣
exp
(
−
2
m
ϵ
2
)
\delta=2|\mathcal{H}| \exp \left(-2 m \epsilon^2\right)
δ=2∣H∣exp(−2mϵ2)
证毕。