抽样与机器学习的对应关系
- 我们不知道罐子中橘色弹珠的数量比例,对应在机器学习中就是我们不知道在hypothesis中哪个h(x) 是我们要找的
- 弹珠表示x
- 橘色的弹珠代表 h(x)≠f(x) h ( x ) ≠ f ( x )
- 绿色的弹珠代表 h(x)=f(x) h ( x ) = f ( x )
- 抽样得到的橘色弹珠的比例对应机器学习中对应 h(x)≠f(x) h ( x ) ≠ f ( x ) 的几率
通过下图可以比较直观的看出:
现在引入两个值 Eout(h) E o u t ( h ) 和 Ein(h) E i n ( h ) 对应抽样中的 μ 和 ν (其中 μ 代表真实的橘色弹珠比例,v代表抽样时橘色弹珠的比例)
- Eout(h) E o u t ( h ) 代表实际上 h(x)≠f(x) h ( x ) ≠ f ( x ) 的比例,未知
- Ein(h) E i n ( h ) 代表训练样本中 h(x)≠f(x) h ( x ) ≠ f ( x ) 的比例,已知
- 最后用已知的 Ein(h) E i n ( h ) 推论未知的 Eout(h) E o u t ( h )
如下图:
把 Eout(h) E o u t ( h ) 和 Ein(h) E i n ( h ) 代入到霍夫丁不等式中得到:
P[|v−μ|>ϵ]≤2exp(−2ϵ2N)
P
[
|
v
−
μ
|
>
ϵ
]
≤
2
e
x
p
(
−
2
ϵ
2
N
)
⇓
⇓
P[|Ein(h)−Eout(h)|>ϵ]≤2exp(−2ϵ2N)
P
[
|
E
i
n
(
h
)
−
E
o
u
t
(
h
)
|
>
ϵ
]
≤
2
e
x
p
(
−
2
ϵ
2
N
)
在上一节我说,我们不需要关心 μ 是多少,所以在这里我们也不关心 Eout(h) E o u t ( h ) 是多少,也不需要关心P是多少。
现在我们得到重要结论:根据霍夫丁不等式,我们可以由 Ein(h) E i n ( h ) 推论 Eout(h) E o u t ( h ) ,即 Eout(h)≈Eout(h) E o u t ( h ) ≈ E o u t ( h ) 。
当
Ein(h)
E
i
n
(
h
)
很小,即
h(x)≠f(x)
h
(
x
)
≠
f
(
x
)
在
Ein(h)
E
i
n
(
h
)
中出现很少,那么说明在
Eout(h)
E
o
u
t
(
h
)
中也会很少犯错。
Ein(h) E i n ( h ) 依然还不是最优解
单个 h 的情况下,当N足够大的时候也会有 Eout(h)≈Eout(h) E o u t ( h ) ≈ E o u t ( h ) ,但这并不代表该 h 就是我们想要的 h 使得 h=g h = g 且 g≈f g ≈ f 。
因为我们知道hypothesis中有很多的 h ,我们不能保证手上的这条 h 就是最好的那条,所以在以后的课程中我们还要介绍如何才能从hypothesis中选出最优的 h。
===========================懵逼分割线===========================
欢迎大家加入Q群讨论:463255841
===========================懵逼分割线===========================