2.1PAC学习模型-例题:学习平行于坐标轴的矩形
该问题特点:假设集H与概念类C是一致的,并且假设集是无限的。(关于模型一致性与泛化性的相关概念此处不再赘述)
1.问题描述
简介:考虑这么一种情况,样本集为平面上的点,
X
=
R
2
\mathcal{X}=\mathbb{R}^2
X=R2,概念类C为这个平面上所有平行于坐标轴的矩形,即在这种设定下每个概念c都是一个特别的平行于坐标轴的矩形中所有内点构成的集合。本例的学习问题是依据有标签的学习样本确定一个误差较小的平行于坐标轴的目标矩形。我们将论述平行于坐标轴的矩形这种概念类是PAC可学习的。
如下图,R为平行于坐标轴的目标矩形,R‘为一个假设。
规定:
1.假设R’产生误差的区域包括在R内但是在R‘外的部分——称为假阴性,即R’预测为0,但实际为1;
2.假设R’产生误差的区域包括在R‘内但是在R外的部分——称为假阳性,即R’预测为1,但实际为0;
2.求解解析
给出算法A
为了说明该概念类是PAC可学习的,可设计一个算法 A \mathcal{A} A:
给定一个有标签的样本集 S S S, A \mathcal{A} A根据标签为1的样本返回一个最紧的平行于坐标轴的矩形 R ′ = R S R' = R_S R′=RS
性质探讨
首先,根据定义,
R
′
R'
R′不会产生任何假阳性的结果。
这一点很好理解,如下图,我们是根据样本的标签来划定矩形的,因此假设集合里面不会有红色样本(label = 0)的结果。
这个算法返回的假设如下图所示:
进一步给出证明与思考过程:
注意,这个题可以算是理解PAC有限假设集的典型例题,目前在全网还没找到针对我这种小白完全理解清楚的点,搞了好久才明白到底是怎么回事,下面从数学上给出更详细的补充,另外提供一个思路相对清晰的解释:https://www.cnblogs.com/alphablox/p/5935826.html
但是上述解释有些地方我还是没能理解,所以这里做一个更详细的说明。
OK,废话不多说,我们一步一步开始理解:
第一点,要证明该问题是PAC-learnable的,那就是要证明上面的公式,就是这个:
P
r
s
∼
D
m
[
R
(
h
s
)
≤
ε
]
≥
1
−
δ
Pr_{s\sim D^m}[R(h_s)\leq \varepsilon]\geq1-\delta
Prs∼Dm[R(hs)≤ε]≥1−δ
这里,进一步解释一番,我们知道
R
(
h
s
)
R(h_s)
R(hs)表示该问题的泛化误差,但因为分布
D
D
D以及目标概念啥的我们都不知道,所以不能直接求,我们有的只有样本的数据,因此我们就是要,找到一个样本量m,使得m足够大时,经验误差能够代替泛化误差从而满足近似、高概率的条件。(这里不能理解的去看前一篇博客2.1PAC学习模型)
第二点,为了看看是不是能求出这个m的多项式(定义2.3-PAC-learnable),我们先针对这个问题做一些约定:
1.令
R
∈
C
R\in C
R∈C为目标概念
2.规定
ε
>
0
\varepsilon > 0
ε>0,这里就是确定我们近似正确到一个什么程度。
3.令
P
r
[
R
]
Pr[R]
Pr[R]表示,由R定义区域的概率质量,即根据分布D随机产生的样本落在R内部的概率。
关于这个概率质量的表述,有下面需要讨论和理解的问题:
···首先,既然我们设计算法的误差只与落在R内部的点有关。
如上图(仅作说明使用),可能的假设R‘ 产生一个假阴性误差,换句话说,由于没有假阳性结果,所以假设R’区域得到的样本点是R的一个子集)。
4.由上述,我们就可以约定:
P
r
[
R
]
>
ε
Pr[R] > \varepsilon
Pr[R]>ε;
···这么假定的原因是,你至少要让这个目标概念的区域比这个近似正确的误差
ε
>
0
\varepsilon > 0
ε>0要大才有意义,因为如果目标概念区域的概率密度
P
r
[
R
]
<
ε
Pr[R] < \varepsilon
Pr[R]<ε,那么好了,由于
R
S
R_S
RS在R内部,这时无论S是什么,一定有误差
R
(
R
S
)
<
ε
R(R_S)<\varepsilon
R(RS)<ε,没有意义。
··另外,不管具体的训练样本集S情况如何,
R
s
R_s
Rs产生的误差应当小于或等于
ε
\varepsilon
ε
5.由于
P
r
[
R
]
>
ε
Pr[R] > \varepsilon
Pr[R]>ε,我们可以沿着R的四个边定义四个矩形区域
r
1
,
r
2
,
r
3
,
r
4
r_1,r_2,r_3,r_4
r1,r2,r3,r4,其中每个区域的概率密度至少为
ε
/
4
\varepsilon/4
ε/4,具体来说,这些区域的构建可以从R一边出发,在保证概率质量至少是
ε
/
4
\varepsilon/4
ε/4下尽可能向内移动。
5.令
l
,
r
,
b
,
t
l,r,b,t
l,r,b,t为由R定义的四个实数值:
R
=
[
l
,
r
]
×
[
b
,
t
]
R=[l,r]\times [b,t]
R=[l,r]×[b,t]。
6.进而,上述4个区域可做如下定义:例如取
s
4
=
i
n
f
{
s
:
P
r
[
[
l
,
s
]
×
[
b
,
t
]
]
≥
ε
/
4
}
s_4=inf\{s:Pr[[l,s]\times[b,t]]\geq \varepsilon/4\}
s4=inf{s:Pr[[l,s]×[b,t]]≥ε/4},则左侧矩形
r
4
r_4
r4可以定义为
r
4
=
[
l
,
s
4
]
×
[
b
,
t
]
r_4 = [l,s_4]\times [b,t]
r4=[l,s4]×[b,t]。类似的其他区域也这么定义。如下图:
7.因此,我们知道如果矩形的四条边与四个小矩形每部分都有交集,则
R
−
R
S
R-R_S
R−RS区域即
R
(
R
S
)
R(R_S)
R(RS)一定小于等于
4
×
ε
/
4
=
ε
4\times \varepsilon/4 = \varepsilon
4×ε/4=ε
8.所以逆否命题:若
R
(
R
S
)
≥
ε
,
R
′
R(R_S)\geq \varepsilon,R'
R(RS)≥ε,R′至少与一个区域没有交集
9.所以有
P
[
R
(
R
S
)
>
ε
]
≤
P
[
∪
i
=
1
4
R
S
∩
r
i
=
∅
]
≤
∑
i
=
1
4
P
[
R
S
∩
r
i
=
∅
]
≤
4
(
1
−
ε
/
4
)
m
≤
4
e
x
p
(
−
m
ε
/
4
)
\mathbb{P}[R(R_S)>\varepsilon]\leq\mathbb{P}[\cup_{i=1}^4 {R_S\cap r_i = \empty}]\\ \leq\sum_{i=1}^4 \mathbb{P}[{R_S\cap r_i = \empty}]\\ \leq 4(1-\varepsilon/4)^m\\ \leq 4exp(-m\varepsilon/4)
P[R(RS)>ε]≤P[∪i=14RS∩ri=∅]≤i=1∑4P[RS∩ri=∅]≤4(1−ε/4)m≤4exp(−mε/4)
注意,这里在具体说一下为什么 P [ R S ∩ r i = ∅ ] ≤ ( 1 − ε / 4 ) m \mathbb{P}[{R_S\cap r_i = \empty}] \leq (1-\varepsilon/4)^m P[RS∩ri=∅]≤(1−ε/4)m,以r1区域为例,由于样本中m个样本独立同分布,对于一个样本 x i x_i xi而言,其在 r 1 r_1 r1区域的概率密度为 P [ r 1 ] ≥ ε / 4 \mathbb{P}[{r_1}] \geq \varepsilon/4 P[r1]≥ε/4 所以,易知,对于整个样本而言,其概率 P [ R S ∩ r i = ∅ ] \mathbb{P}[{R_S\cap r_i = \empty}] P[RS∩ri=∅]是指,所有样本没有一个落在r1区域内,因此,就是上述事件取反,就是 P [ R S ∩ r i = ∅ ] ≤ ( 1 − ε / 4 ) m \mathbb{P}[{R_S\cap r_i = \empty}] \leq (1-\varepsilon/4)^m P[RS∩ri=∅]≤(1−ε/4)m。
10.因此,要满足PAC-learnable条件:
P
r
[
R
(
R
S
)
>
ε
]
≤
δ
Pr[R(R_S)>\varepsilon]\leq \delta
Pr[R(RS)>ε]≤δ,必须有
4
e
x
p
(
−
m
ε
/
4
)
≤
δ
4exp(-m\varepsilon/4)\leq \delta
4exp(−mε/4)≤δ,即:
m
≥
4
ε
l
o
g
4
δ
m\geq \frac{4}{\varepsilon}log\frac{4}{\delta}
m≥ε4logδ4
11.证毕,矩形可以PAC-Learnable
还有一种证明方式是使用泛化边界,也就是找到一个与 ε , δ \varepsilon,\delta ε,δ有关的 R ( R D ) R(R_D) R(RD)的上界,至少为 1 − δ 1-\delta 1−δ的概率。
3.其他讨论
本例中,我们考虑的假设集
H
\mathcal{H}
H与概念类
C
C
C是一致的(都是矩形),很遗憾的是,这种推导无法推广到更一般的结论。
最后,还想讨论的一个点是,假设的“等效”问题,我们在设计算法的时候,一般是想结果尽可能接近目标概念,但不一定是(一般也不会)完全的符合目标概念c,以上面例子,为例,如下图,如果我们设计的某种算法返回的是R’‘,则对于图中这个样本而言,R、R’、R’'这三个矩形可以说是“等效”的。