复习上限函数
在第23-24节中,我们获得了成长函数的上限函数,并且上限函数又被被多项式
Nk−1
N
k
−
1
所包含住,即
∑k−1i=0
∑
i
=
0
k
−
1
会被
Nk−1
N
k
−
1
所包含住,如下图:
∑k−1i=0
∑
i
=
0
k
−
1
与
Nk−1
N
k
−
1
的关系如下面两个表所示:
基于以上关系,所有的成长函数都将会被 Nk−1 N k − 1 所包含住,即今后我们写成长函数的时候不必再一个个分开来写,而是直接写成 Nk−1 N k − 1
复习VC Bound
在将VC Bound的时候我们推出如下公式:
因为
mH(2N)
m
H
(
2
N
)
是成长函数,当N足够大,且
k≥3
k
≥
3
的时候,成长函数最终又被多项式
Nk−1
N
k
−
1
包含住,所以上面的式子可以用
Nk−1
N
k
−
1
加以替换,结果如下:
VC Dimension
那么什么是VC Dimension呢?所谓的VC Dimension其实就是break point之前的那个点,比如break point为k,那么k-1就是VC Dimension,用 dVC=k−1 d V C = k − 1 来表示。
- 当 N≤dVC N ≤ d V C ,则可以被hypothesis shatter,因为肯定能够做出 2N 2 N 条线来分割所有的hypothesis
- 当 N>dVC N > d V C ,则肯定不能被hypothesis shatter
因为
dVC=k−1
d
V
C
=
k
−
1
,所以又有:
现在我们来回顾之前介绍到的四种成长函数对应的四种VC Dimension,分别如下:
观察上图会发现由于convex sets没有break point,因此VC Dimension会趋向于无穷;之前我们一直找不到上限函数的2D perceptions的上限函数也被我们成功找到了,即
N3
N
3
.
找到VC Dimension有什么意义呢?
我们知道机器学习的最终目的是从Hypothesis Set中找到一条合适的g,但是Hypothesis Set中可能有很多备选的g,结果会造成程序一直不停的跑无法停止下来。
所以我们需要找到一个点break point,当程序运行到该处的时候能够停止下来。所以说有break point的Hypothesis Set才是好的Hypothesis Set。
那么现在我们也可以说只要有VC Dimension的Hypothesis Set就是好的Hypothesis Set。
本节到此结束
===========================懵逼分割线===========================
欢迎大家加入Q群讨论:463255841
===========================懵逼分割线===========================