机器学习基石---Why Can Machines Learn(Part2)

最新推荐文章于 2021-07-31 03:34:56 发布

维格堂406小队

最新推荐文章于 2021-07-31 03:34:56 发布

阅读量346

点赞数

分类专栏： ★★★机器学习 # ★★台大机器学习

本文链接：https://blog.csdn.net/wendaomudong_l2d4/article/details/79131282

版权

★★★机器学习同时被 2 个专栏收录

62 篇文章 3 订阅

订阅专栏

★★台大机器学习

13 篇文章 0 订阅

订阅专栏

knitr::opts_chunk$set(echo = TRUE)

1 前情回顾

Part1一文的主要内容是：如果training examples独立同分布于数据总体，那么当资料 $D$ 足够多( $N$ 足够大)，hypothesis set $H$ 不太大 (M不太大)，对于任意一个hypothesis $h$ ，都有 $E_{in} \approx E_{out}$ 。此时，如果演算法 $A$ 能够找到一个 $g$ ，使得 $E_{in}(g)\approx 0$ ，那么可以知道 $E_{out}(g) \approx 0$ 。那么，可以说learning是可行的。即learning的核心问题为:
1. 确保 $E_{in} \approx E_{out}$
2. 使得 $E_{in}(g)\approx 0$

central questions

如果 $M$ 很小，容易得到 $E_{in} \approx E_{out}$ ；但是演算法的选择很少，不一定能够找到 $E_{in}(g)\approx 0$ 。反之， $M$ 很大，演算法应该可以选到一个好的hypothesis，使得 $E_{in}(g)\approx 0$ ，但是Bad Data发生的概率会增加， $E_{in} \approx E_{out}$ 不一定满足。由此，希望 $M$ 有限。

2 $M$ 可以有限吗

先回忆 $M$ 的由来:

$P D [B a d D] = P D [B a d D f o r h 1 o r B a d D f o r h 2 o r \dots o r B a d D f o r h M] \leq P D [B a d D f o r h 1] + \dots + P D [B a d D f o r h M] \leq 2 exp (- 2 ε 2 N) + \dots + 2 exp (- 2 ε 2 N) = 2 M exp (- 2 ε 2 N)$ $\begin{array}{l} {P_D}\left[ {Bad\;D} \right]\\ = {P_D}\left[ {Bad\;D\;for\;{h_1}\;or\;Bad\;D\;for\;{h_2}\;or\; \ldots or\;Bad\;D\;for\;{h_M}} \right]\\ \le {P_D}\left[ {Bad\;D\;for\;{h_1}\;} \right] + \ldots + {P_D}\left[ {Bad\;D\;for\;{h_M}} \right]\\ \le 2\exp \left( { - 2{\varepsilon ^2}N} \right) + \ldots + 2\exp \left( { - 2{\varepsilon ^2}N} \right)\\ = 2M\exp \left( { - 2{\varepsilon ^2}N} \right) \end{array}$

在计算Bad Data发生概率时，用union bound取到该概率的上界。但是如果 $M$ 很大，使得不等式右边大于1，那么此时的不等式无意义，概率显然小于1。union bound会高估 $P(Bad \; D)$ ，因为其假设所有的hypothesis之间没有交集，这是最坏的情况。但是大部分情况下，hypothesis都是存在交集的，即上图中的 $D_i$ 列中会有多个bad data。是否可以找到重叠部分，把无数个hypothesis分成有限类？

2.1 Effective Number Of Lines

以Week2讲的PLA为例，即直线能够分隔两类点。 $H=all\;lines\;in\;{R^2}$ ，即平面中的所有直线都是hypothesis。 $Y=\{-1,+1\}$ 对于training data的所有 $N$ 个样本，如果 $h_1(x)=h_2(x)$ 且与实际的label相同，就把 $h_1,h_2$ 归为一类。
$N=1$ ，直线只有2类: $h(x)=1$ 或 $h(x)=-1$

one point

$N=2$ ，直线只有4类: $h(x1)=1，h(x2)=1$ 或 $h(x1)=-1，h(x2)=-1$ 或 $h(x1)=1，h(x2)=-1$ 或 $h(x1)=-1，h(x2)=1$

two point

$N=3$ ，直线的种类数和点的排列有关。三个点按照下面方式排列，则直线有8种。
three points -8

三个点按照下面方式排列，则直线只有6种。

three points -6

$N=4$ ，最多有14种直线。

four point

经过上述分析，1个点最多2种线，2个点最多有4种线，3个点最多有8种线，4个点最多有14 $(<2^4)$ 种线。用 $effective(N)$ 表示线的种类。如果可以满足：
1. $effective(N)$ 代替 $M$
2. $effective(N) \ll 2^N$
那么可以有：

P [| E i n (g) - E o u t (g) | > ε] \leq 2 * e f f e c t i v e (N) * exp (- 2 ε 2 N)

$P\left[ {\left| {{E_{in}}\left( g \right) - {E_{out}}\left( g \right)} \right| > \varepsilon } \right] \le 2 * effective\left( N \right) * \exp \left( { - 2{\varepsilon ^2}N} \right)$
如果

N $N$ 足够大，

effective(N) $effective(N)$ 有限，不等式右边约等于0，此时

Ein≈Eout $E_{in} \approx E_{out}$ ，所以可以说learning是可行的。

2.2 Effective Number Of Hypotheses

上一节介绍了线的种类，那么对应的有方程的种类吗？类似的某一种线可以把点二分，如果hypothesis可以把点二分，则称为一个dichotomy。容易知道一个dichotomy至少对应一个hypothesis，一个hypothesis能且只能对应一个dichotomy。那么整个hypothesis set最多可以产生多少dichotomy呢?
定义成长函数：

m H (N) = max x 1, x 2, \dots, x N \in X | H (x 1, x 2, \dots, x N) |

${m_H}\left( N \right) = \mathop {\max }\limits_{{x_1},{x_2}, \ldots ,{x_N} \in X} \left| {H\left( {{x_1},{x_2}, \ldots ,{x_N}} \right)} \right|$
用成长函数表示整个hypothesis set最多可以产生的dichotomy数目。以下是几种常见的hypothesis set的成长函数：
1. Positive Rays
阈值右方为

o $o$ 类，左方为

x $x$ 类，

N $N$ 个点共有

N+1 $N+1$ 个空，容易知道

mH(N)=N+1 $m_H(N)=N+1$
![positive rays](Picture/Part2/positive rays.png)

2. Positive Intervals
两个阈值之间的为 $o$ 类，阈值之外为 $x$ 类。共有 $N+1$ 个空，随机选择两个空，共有 $\frac{{\left( {N + 1} \right)N}}{2}$ 个。另外，如果两个阈值在两个点之间，那么所有点都是 $x$ 类，这是一种dichotomy。因此， $m_H(N)=\frac{{\left( {N + 1} \right)N}}{2}+1$ 。
![positive intervals](Picture/Part2/positive intervals.png)

3. Convex Sets
成长函数表示整个hypothesis set最多可以产生的dichotomy数目，该函数的上界为 $2^N$ 。任选 $k$ 个点， $k$ 个点组成的多边形内的点预测为 $o$ ，外面预测为 $x$ 。把 $N$ 个点摆成一个圈，则这 $N$ 个点的任意排列组合都是一个dichotomy， $m_H(N)=2^N$ ，此时我们称 $N$ 个点被shatter了。

![convex sets](Picture/Part2/convex sets.png)

所以上述几种情形下的成长函数分别为：
positive rays $m_H(N)=N+1$
positive intervals $m_H(N)=\frac{{\left( {N + 1} \right)N}}{2}+1$
convex sets dde $m_H(N)=2^N$
2D perceptrons $m_H(N)<2^N \; in\;some\;cases$

2.3 Break Points

如果对于 $m_H(k)<2^k$ ,那么称 $k$ 为是 $H$ 的break point。并且 $k+1,k+2,...$ 都是break point。例如在2D perceptrons， $N=4$ 时, $m_H(4)=14<2^4$ ,所以2D perceptrons的break point是4。对上文的四种情形，break point情况如下：

break point

观察上图猜测成长函数和break point可能存在某种关系：
1. convext sets:没有break point，成长函数为 $2^N$
2. positive rays: break point k=2,成长函数为 $O(N)$
3. positive intervals:break point k=3，它的成长函数为 $O(N^2)$
4. 类似的猜测2D perceptrons成长函数为 $O(N^{k-1})$
如果成立，那么就可以用 $m_H$ 代替 $M$ ,满足了learning能够学习的第一个条件， $E_{in} \approx E_{out}$ 。关于这个猜测的证明，见Part3。

3 Summary

Part1中我们把learning分成两个核心问题:
1. 确保 $E_{in} \approx E_{out}$
2. 使得 $E_{in}(g)\approx 0$
对于问题1，如果hypothesis set的大小 $M$ 不太大，资料个数 $N$ 又够多的情况下，可以满足 $E_{in} \approx E_{out}$ 。本文通过成长函数 $m_H$ ，对 $M$ 个hypothesis划分种类，并且推测 $m_H$ 和break points 有关。
但是Week5并没有讲 $m_H$ 可以代替 $M$ 的内在逻辑性，仅仅是假设类似的 $h$ ，可能存在相同的bad data，所以 $m_H$ 就可以代替 M <script type="math/tex" id="MathJax-Element-99">M</script>了吗？不知道后面会不会有严格的证明和解释。

4 Ref

[1] http://beader.me/mlnotebook/section2/vc-dimension-one.html
[2] http://blog.csdn.net/red_stone1/article/details/71104654
2018-01-22 于杭州

维格堂406小队

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习基石---Why Can Machines Learn(Part2)

knitr::opts_chunk$set(echo = TRUE)1 前情回顾 Part1一文的主要内容是：如果training examples独立同分布于数据总体，那么当资料DD足够多(NN足够大)，hypothesis setHH不太大 (M不太大)，对于任意一个hypothesis hh，都有Ein≈EoutE_{in} \approx E_{out}。此时，如果演算法AA
复制链接

扫一扫

专栏目录