林轩田机器学习基石笔记（第20节）——成长函数growth function

最新推荐文章于 2024-04-23 20:27:18 发布

神兽乌鸦

最新推荐文章于 2024-04-23 20:27:18 发布

阅读量5.1k

点赞数 7

分类专栏：机器学习

本文链接：https://blog.csdn.net/zhangdongren/article/details/81952817

版权

机器学习专栏收录该内容

23 篇文章 17 订阅

订阅专栏

上一节我们提到平面上有效的线的数量不会大于 $2^N$ ，但是实际上有效的线还会比 $2^N$ 来得更小，所以这一节我们将想办法找到更精确的多项式来代替 $2^N$ ，这样就可以有效的缩小我们的计算范围了。

Dichotomy

这节课引入一个新的概念Dichotomy，所谓的Dichotomy其实就是我们前一节学到的effective(N)。

成长函数（growth function）

其实growth function也是我们前面学得effective(N)。引入成长函数的目的是要消除对X的依赖。

Positive Rays
现在假设我们有一堆的X，然后我们要做得就是找到一条线 h(x)=sign(x-a) 把这堆X分成不同的两类，大于a我们记做圈圈，小于a我们记为叉叉，不同的a就会得到不同的hypothesis。因为a可以为任意值，所以hypothesis可以是平面上的任意一条线。

观察上图，现在我们来讨论，如果我现在有N个X，我们可以做出多少种线来分割所有的X呢？答案是 $m_H(N)=N+1$ ，为啥？因为这N个点把这条线分成了N+1个区块，我只要把我要分割的线放在这些区块内就可以了，所以自然也有N+1条线。并且 $N+1 \leq 2^N$ ，所以 $m_H(N)=N+1$ 就是Positive Rays的成长函数。
Positive Interval
同样是在一条直线上，我们区某一区间为+1，其余均为-1，那么它的成长函数会长成什么样呢？如下图：

观察发现，此处依然是分为N+1个区块，每次取出2个区间作为+1，即可以有 $C_{N+1}^2= \frac{A_{N+1}^2}{A_2^2}=\frac{(N+1)(N+1-2+1)}{2 \times (2-2+1)}= \frac{(N+1)N}{2}= \frac{1}{2} N^2+ \frac{1}{2}N$
另外还有一种情况，当 h(x)=+1 的两个端点落在同一区间的时候，区间外所有的点都为-1.所以Positive Interval的成长函数为 $m_H(N)= \frac{1}{2} N^2+ \frac{1}{2}N+1$

上图是林轩田老师课程中的计算式子，当时我很不理解的意思，后来了解才知道这是组合的另一种写法，知道这个问题之后就轻易理解了，该式子与 $C_{N+1}^2$ 是同一个意思。

这里我们来复习一下排列组合的相关知识
排列公式： $A_n^m=n(n-1)(n-2)...(n-m+1)$
组合公式： $C_n^m= \frac{A_n^m}{A_m^m}$
Convex Sets
所谓的Convex Sets即是凸多边形，凹多边形不包括在内，下图中的第种情况不属于Convex Sets:

那么这种情况下成长函数会长成什么样子呢？答案是 $m_H(N)=2^N$ ，如下图，当平面上有N个点，把其中几个点连接起来会形成一个凸多边形，并且该凸多边形以内所有的hypothesis都为+1，以外的都为-1.

如果我给你N个点，你能够把 $2^N$ 种dichotomy通通都做得出来，那么我们说这N个点能被shattered。例如在Positive Interval中N=1的时候，Positive Interval中N=1（或2和3）的时候都可以全部被shatter。

所有的成长函数都小于等于 $2^N$

在上一节中，我们发现所有的effective(N)都小于等于 $2^N$ ，如下图：
这里写图片描述
又因为growth function其实就是effective(N)，所以有如下推论：

Positive Rays的成长函数： $m_H(N)=N+1 \leq 2^N$
Positive Interval的成长函数： $m_H(N)= \frac{1}{2} N^2+ \frac{1}{2}N+1 \leq 2^N$
Convex Sets的成长函数： $m_H(N)=2^N \leq 2^N$
2D perceptrons的成长函数在某些情况下为： $m_H(N)<2^N$

在上一节我们提到要用 $m_H$ 替换霍夫丁不等式中的大M，变换如下：
$P[|E_{in}(g)-E_{out}(g)|>ϵ] \leq 2 \cdot M \cdot exp(-2ϵ^2N) \Rightarrow P[|E_{in}(g)-E_{out}(g)|>ϵ] \leq 2 \cdot m_{H} \cdot exp(-2ϵ^2N)$
通过前面所学，当 $m_H$ 是多项式（即Positive Rays和Positive Interval）的时候能够保证随着N增大，不等式的右边会接近于0；但是当 $m_H$ 是指数函数（即Convex Sets和2D perceptrons）的时候，则不等式不会随着N的增大而接近0。
在介绍2D perceptrons成长函数的时候，我们说它的成长函数某些情况下是指数函数 $m_H(N)<2^N$ ，那说明在某些情况下还有可能是多项式，因此之后的课程我们还要继续对其进行讨论。

本节到此结束，下节继续！

===========================懵逼分割线===========================

欢迎大家加入Q群讨论：463255841

===========================懵逼分割线===========================

神兽乌鸦

关注

7
点赞
踩
23

收藏

觉得还不错? 一键收藏
2
评论
林轩田机器学习基石笔记（第20节）——成长函数growth function

Dichotomy这节课引入一个新的概念Dichotomy，所谓的Dichotomy其实就是我们前一节学到的effective(N)。成长函数（growth function）其实growth function也是我们前面学得effective(N)。引入成长函数的目的是要消除对X的依赖。Positive Rays 现在假设我们有一堆的X，然后我们要做得就是找到一条线 h(...
复制链接

扫一扫