术语
Examples: 示例或实例。
Features: 与示例关联的属性集,通常表示为向量。
Labels: 分配给示例的值或类别。
Hypothesis set: 一组将特征向量映射到标签集
Y
Y
Y 的函数。
Training sample: 训练学习算法的示例。
Validation sample: 优化算法参数的示例。
Test sample: 评估算法性能的示例。
X
X
X: 所有可能的示例的集合。
Y
Y
Y: 所有可能的标签的集合,简化为
Y
=
{
0
,
1
}
Y = \left\{0, 1\right\}
Y={0,1}。
Concept class: 概念类,简记为
C
C
C,
C
=
{
c
∣
c
:
X
→
Y
}
C=\left\{c | c: X → Y \right\}
C={c∣c:X→Y}。
i
.
i
.
d
i.i.d
i.i.d:independent and identitical sampling, 独立同分布抽样。
概念是目标:concept是真实世界中的规则,是目标函数,通常不可见;
假设是逼近:hypothesis是模型得出的关于concept的猜测。假设越接近概念,模型的表现就越好。
定义:泛化误差
定义:经验误差
经验误差是在样本上的平均误差;
泛化误差是基于分布的预期误差。
注意到,对固定的 h ∈ H,基于
i
.
i
.
d
i.i.d
i.i.d 样本
S
S
S 的经验误差的期望等于泛化误差,即:
定义:PAC学习
高概率:概率大于
1
−
δ
1-\delta
1−δ
近似正确:泛化误差小于
ϵ
\epsilon
ϵ
例子:Learning axis-aligned(轴对齐)rectangles
an axis-aligned rectangle has its sides parallel to the x and y axes.
X
=
R
2
,
Y
=
{
0
,
1
}
X = \mathbb{R}^2, Y=\left\{0,1\right\}
X=R2,Y={0,1},
C
C
C 是位于
R
2
\mathbb{R}^2
R2 中的所有轴对齐矩形的集合,每个概念
c
c
c 都是特定轴对齐矩形内的点集。学习问题为:用标记的训练样本以小误差确定目标轴对齐的矩形。断言,轴对齐矩形的概念类是 PAC 可学习的。
图 2.1 说明了这个问题。
R
R
R 表示目标轴对齐的矩形,
R
′
R'
R′ 是一个假设。从图中可以看出,
R
′
R'
R′ 的误差区域是:在
R
R
R 内但在
R
′
R'
R′ 外的区域,以及在
R
′
R'
R′ 外但在
R
R
R 内的区域。第一个区域称为假阴性,即被
R
′
R'
R′ 标记为 0 的点,这些点实际上是 1。第二个区域称为假阳性,即由
R
′
R'
R′ 标记为 1 的点,实际上是 0。
为了证明概念类是 PAC 可学习的,首先定义一个简单的 PAC 算法
A
\mathcal{A}
A。给定一个标记的样本
S
S
S,该算法会返回最紧密的轴对齐矩形
R
′
=
R
S
R'= R_S
R′=RS。图 2.2 说明了算法返回的假设。根据定义,
R
S
R_S
RS 不会产生任何误报,因为它的点必须包含在目标概念
R
R
R 中。因此,
R
S
R_S
RS 的误差区域包含在
R
R
R 中。
让
R
∈
C
R \in C
R∈C 成为目标概念。固定
ϵ
>
0
\epsilon > 0
ϵ>0。用
P
r
[
R
S
]
Pr[R_S]
Pr[RS] 表示依据分布
D
D
D 随机绘制的点落在
R
S
R_S
RS 内的概率,假设
P
r
[
R
S
]
>
ϵ
Pr[R_S] >\epsilon
Pr[RS]>ϵ。
由于 P r [ R S ] > ϵ Pr[R_S] >\epsilon Pr[RS]>ϵ,我们可以沿 R S R_S RS 的边定义四个矩形区域 r 1 , r 2 , r 3 r_1,r_2,r_3 r1,r2,r3和 r 4 r_4 r4,每个区域的概率至少为 ϵ / 4 \epsilon/4 ϵ/4。图 2.3 说明了这些区域的定义。
注意到如果 R S R_S RS 和这四个区域都相交,则它的误差区域,即它没有覆盖的 R R R 部分的概率质量不能大于 ϵ \epsilon ϵ 。因此 P r [ R S ] > ϵ Pr[R_S] >\epsilon Pr[RS]>ϵ 说明 P r [ R S ] Pr[R_S] Pr[RS] 和至少其中一个区域不交。
因此有:
进而可以得到:
所以,对于任何
ϵ
>
0
\epsilon>0
ϵ>0 和
δ
>
0
\delta>0
δ>0 ,如果样本量
m
≥
4
ϵ
l
o
g
4
δ
m \ge \frac{4}{\epsilon}log \frac{4}{\delta}
m≥ϵ4logδ4 ,则
P
r
S
∼
D
m
[
R
(
R
S
)
>
ϵ
]
≤
1
−
δ
Pr_{S \sim D^m}[R(R_S) > \epsilon] ≤ 1 − δ
PrS∼Dm[R(RS)>ϵ]≤1−δ。
此外,在二维空间 ( R 2 \mathbb{R}² R2 ) 中表示点和轴对齐矩形的计算成本是常数,这些矩形可以通过它们的四个顶点来确定。这证明了轴对齐矩形的概念类是 PAC 可学习的,并且 PAC 学习轴对齐矩形的样本复杂度是 O ( 1 ϵ l o g 1 δ ) O(\frac{1}{\epsilon}log \frac{1}{\delta}) O(ϵ1logδ1) 。