机器学习基石---Why Can Machines Learn(Part4)

最新推荐文章于 2020-10-22 20:51:20 发布

维格堂406小队

最新推荐文章于 2020-10-22 20:51:20 发布

阅读量305

点赞数

分类专栏： ★★★机器学习 # ★★台大机器学习

本文链接：https://blog.csdn.net/wendaomudong_l2d4/article/details/79197164

版权

★★★机器学习同时被 2 个专栏收录

62 篇文章 3 订阅

订阅专栏

★★台大机器学习

13 篇文章 0 订阅

订阅专栏

knitr::opts_chunk$set(echo = TRUE)

Part3主要内容：如果 $N$ 足够大并且某处存在break point，那么 $E_{in}\approx E_{out}$ 可以满足。那么对于任意维度的2D perceptrons一定存在break point吗？

1 VC Dimension

Part3讲到的VC Bound如下所示：

P D [\exists h \in H, s . t . | E i n (g) - E o u t (g) | > ε] \leq 4 * m H (2 N) * exp (- 1 8 ε 2 N)

${P_D}\left[ {\exists \;h \in H,\;s.t.\;\left| {{E_{in}}\left( g \right) - {E_{out}}\left( g \right)} \right| > \varepsilon } \right] \le 4 * {m_H}\left( 2N \right) * \exp \left( { - \frac{1}{8}{\varepsilon ^2}N} \right)$

其中 $m_H(N)<B(N,k)=\sum\limits_{{\rm{i = 0}}}^{k - 1} {C_N^i}$ ,当 $N \ge 2,k \ge 3$ ，我们可以找到 $B(N,k)$ 的上界 $N^{k-1}$ ,数学上应该可以直接证明的，这里我们简单看图做个说明:

这里写图片描述

我们从最开始的 $M$ –> $m_H(N)$ –> $B(N,k)$ –> $N^k$ ，那么如果break point $k$ 存在时，上面VC Bound可以替换为：

P D [\exists h \in H, s . t . | E i n (g) - E o u t (g) | > ε] \leq 4 * (2 N) k - 1 * exp (- 1 8 ε 2 N)

${P_D}\left[ {\exists \;h \in H,\;s.t.\;\left| {{E_{in}}\left( g \right) - {E_{out}}\left( g \right)} \right| > \varepsilon } \right] \le 4 * {(2N)^{k-1}} * \exp \left( { - \frac{1}{8}{\varepsilon ^2}N} \right)$

那么，如果成长函数存在break point且资料量 $N$
足够大，我们可以得到 $E_{in}\approx E_{out}$ 。同时，如果演算法可以找到一个 $E_{in}$ 很小的 $g$ ，learning应该就是可行的。

这里写图片描述

VC Dimension定义：最大的非break point，或者说是最小的break point减去1的值。那么：

i f N \geq 2, d V C \geq 2, m H (N) \leq N d V C

$if\;N \ge 2,{d_{VC}} \ge 2,{m_H}(N) \le {N^{{d_{VC}}}}$
之前我们说如果break point存在，

N $N$ 足够大，可以得到

Ein≈Eout $E_{in}\approx E_{out}$ ，现在可以用VC Dimension有限来替代break point存在。,对于2D perceptrons,VC Dimension为3，那么对于d维的perceptrons呢？

2 VC Dimension Of Perceptrons

想要知道dD perceptrons的VC Dimension，先从1D、2D看起：

这里写图片描述

猜测d维的perceptrons的VC Dimension为 $d+1$ ，那么证明只需两步：
1. $d_{VC} \ge d+1$
2. $d_{VC} \le d+1$

2.1 Step1 $d_{VC} \ge d+1$

对于step1，只需证明当 $d+1$ 个资料时，存在shatter的情况，就可证明min break point不是 $d+1$ 。注意我们在看是不是break point时，是任意摆放这些 $d+1$ 个点，求最多可以产生多少dichotomy，如果可以产生 $2^N$ 个dichotomy，则认为被shatter。
我们按照下面的方式构造点的排列：

X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ - x T 1 - - x T 2 - ⋮ - x T d + 1 - ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 111 ⋮ 1 010 ⋮ 0 001 ⋮ 0 \dots \dots \dots ⋮ 0 000 ⋮ 1 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$X = \left[ {\begin{array}{*{20}{c}} { - {\rm{x}}_1^T - }\\ { - {\rm{x}}_2^T - }\\ \vdots \\ { - {\rm{x}}_{d + 1}^T - } \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} 1&0&0& \cdots &0\\ 1&1&0& \cdots &0\\ 1&0&1& \cdots &0\\ \vdots & \vdots & \vdots & \vdots & \vdots \\ 1&0&0&0&1 \end{array}} \right]$
每一行代表一个样本点，一共

d+1 $d+1$ 行。线性代数知识易知

X $X$ 可逆。回到PLA，我们希望找到

w $w$ ，使得

sign(Xw)=y $sign(Xw)=y$ ，假设不看

sign $sign$ ，我们如果可以找到

Xw=y $Xw=y$ ，那么一定有

sign(Xw)=y $sign(Xw)=y$ 。shatter的含义指产生

2d+1 $2^{d+1}$ 个dichotomy，也就是对于所有可能存在

y $y$ ，我们可以找到

w $w$ 使得

Xw=y $Xw=y$ 成立。因为

X $X$ 可逆，所以

w=X−1y $w=X^{-1}y$ 。这就证明了这样的

d+1 $d+1$ 个输入能被shatter。Step1证明完成。

2.2 Step2 $d_{VC} \le d+1$

证明 $d_{VC} \le d+1$ 则需要当资料大小为 $d+2$ 时，任意的种 $d+2$ 个input都不能被shatter。同样的，用矩阵表示：

X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ - x T 1 - - x T 2 - ⋮ - x T d + 2 - ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

$X = \left[ {\begin{array}{*{20}{c}} { - {\rm{x}}_1^T - }\\ { - {\rm{x}}_2^T - }\\ \vdots \\ { - {\rm{x}}_{d + 2}^T - } \end{array}} \right]$
这个矩阵行数为

d+2 $d+2$ ，列数为

d+1 $d+1$ ，则行向量之间一定线性相关。

XT∗A=0 $X^T*A=0$ 有解则说明

xT1,xT2,⋯,xTd+2 ${\rm{x}}_1^T,{\rm{x}}_2^T, \cdots ,{\rm{x}}_{d + 2}^T$ 之间线性相关。因为n元齐次方程组

Ax=0 $Ax=0$ 有非零解的充要条件是

R(A)<n $R(A)<n$ 。对于系数矩阵

XT $X^T$ ，其秩一定不大于行数和列数。所以

R(XT)≤d+1 $R(X^T) \le d+1$ ，而

A $A$ 是

d+2 $d+2$ 行，1列的矩阵。所以一定有解。
上面我们证明了对于

d $d$ 维perceptrons，

d+2 $d+2$ 个input时存在线性相关的情况，那么一定有：

x d + 2 = a 1 x 1 + a 2 x 2 + \dots + a d + 1 x d + 1

${{\rm{x}}_{d + 2}} = {a_1}{{\rm{x}}_1} + {a_2}{{\rm{x}}_2} + \cdots + {a_{d + 1}}{{\rm{x}}_{d + 1}}$
证明用反证法证明不能shatter。假设我们在某种

d+2 $d+2$ 个资料时能够shatter，那么所有的dichotomy都存在。系数

a1,a2,...,ad+1 $a_1,a_2,...,a_{d+1}$ 的正负与

y $y$ 的正负一致，这样的

y $y$ 也一定存在，因为被shatter。此时：

w T x d + 2 = a 1 w T x 1 + a 2 w T x 2 + \dots + a d + 1 w T x d + 1

${w^T}{{\rm{x}}_{d + 2}} = {a_1}{w^T}{{\rm{x}}_1} + {a_2}{w^T}{{\rm{x}}_2} + \cdots + {a_{d + 1}}{w^T}{{\rm{x}}_{d + 1}}$
因为

wTxi $w^Tx_i$ 与

ai $a_i$ 符号相同，所以

wTxd+2>0 ${w^T}{{\rm{x}}_{d + 2}}>0$ ，即

yd+2 $y_{d+2}$ 不能为负。这就与shatter这个前提矛盾了，所以

d+2 $d+2$ 时，不能shatter。

综合Step1和Step2，d维的perceptrons的VC Dimension为 $d+1$ 得证！

3 Degrees Of Freedom

自由度的概念怪怪的，和统计学里讲的自由度貌似也不太一样。按照Week7里讲的，叙述一遍吧。

这里写图片描述

上图中 $W$ 又名features,模型中可以自由变动的参数数量即自由度。而VC Dimension代表二分类时有效的自由度，即 $H$ 产生dichotomy的数量，也就是 $W$ 中参数的数量。(也不是绝对等于，林老师原话。。。)例如，对2D Perceptrons，线性分类， $d_{vc}=3}，则$ W={w_0,w_1,w_2} $，也就是只要3个feature就可以学习，自由度为3。 (上面这段乌七八糟，感觉老师讲的时候也不是定义明确) 类别VC维和$ M$，有如下结论：

这里写图片描述

4 Interpreting VC Dimension

这一节进一步探讨VC Dimension。之前的VC Bound如下：

这里写图片描述

这里把Bound记为 $\delta$ ，根据上面的不等式，出现Bad的概率最大不超过 $\delta$ 。那么也可以说出现good的概率最小不小于 $1- \delta$ ，那么可以进一步推导：

这里写图片描述

$\varepsilon$ 表现了 $H$ 的泛化能力， $\varepsilon$ 越小， $E_{in},E_{out}$ 越接近，泛化能力越好。

这里写图片描述

至此我们推导出泛化误差 $E_{out}$ 的上界。这个上界又称为模型复杂度。显然模型复杂度和 $N,d_{VC},\delta,E_{in}$ 有关。下面是 $E_{out},E_{in}$ ，模型复杂度随 $d_{VC}$ 变化的关系：

这里写图片描述

至于这个图为什么是这样，暂时只能把它当做结论来记。从图上可知：
* $d_{VC}$ 越大： $E_{in}$ 越小， $\Omega$ 越大，模型越复杂
* $d_{VC}$ 越小： $E_{in}$ 越大， $\Omega$ 越小，模型越简单
* 随着 $d_{VC}$ 增大， $E_{out}$ 会先减小再增大
单纯的通过增大 $d_{VC}$ 来找最小的 $E_{in}$ 不可取，因为会增加模型复杂度和 $E_{out}$ 。
下面介绍另一个定义：样本复杂度(Sample Complexity)。如果选定 $d_{VC}$ ，样本数据选择多少合适呢？看下面的例子：

这里写图片描述

按照题设条件，满足 $\delta = 0.1$ 的样本数量为29300。 $N$ 大约是 $d_{VC}$ 的10000倍，实际上大概只需要10倍左右。这是因为VC Bound太过宽松了。因为VC Bound不考虑目标函数，数据分布，对于任意的资料都成立，而且还用了union bound，且取了好几次上界。

5 Summary

这一节课整体上乱糟糟的，介绍了VC维、自由度、模型复杂度等等，并且证明了 $d$ 维的Perceptrons的VC维是 $d+1$ 。至于VC维，更多是替换break point，据说break point是林老师自己造出来的。
综合这四篇文，当VC维有限且资料足够多，可以满足 $E_{in} \approx E_{out}$ 。而 $E_{in} \approx 0$ 则需要 $d_{VC}$ 取到合适的值，因为 $d_{VC}$ 过大，虽然 $E_{in}$ 很小，但是会导致 $E_{out}$ 增大。