【机器学习基石】VC dimension（七）

最新推荐文章于 2022-12-27 21:16:49 发布

比奇堡咻飞兜

最新推荐文章于 2022-12-27 21:16:49 发布

阅读量941

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_46308081/article/details/119577684

版权

VC维度感知机模型复杂性样本复杂度机器学习

关键词由CSDN通过智能技术生成

机器学习专栏收录该内容

17 篇文章

订阅专栏

本文深入探讨了VC维度的概念，通过感知机模型阐述了VC维度的计算，并展示了如何从2D感知机推导出dD感知机的VC维度为d+1。同时，解释了VC维度与模型复杂性和样本复杂度之间的关系，指出在选择模型时需要找到一个平衡点。此外，还讨论了样本数量与VC维度的关系，强调实际应用中并不需要过多的数据点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

写在前面

本节我们主要引入了 $\ dimension$ 的概念，从简单的感知机模型的 $V C$ 维度推到一般的感知机模型 $V C$ 维度，最后加深了对其理解。

本文整理自台湾大学林轩田的《机器学习基石》

1. VC dimension 的定义

$\bullet$ 首先我们对上一次的内容进行一下回顾。

上一次我们证明了 $B (N, k)$ 存在上限的上限为 $N^{k-1}$ 。根据下面具体的表格内容显示，我们发现当 $N \geq 2 ， k \geq 3$ 时，完全可以写成（简化了等式）：
$m_{H}(N)≤N^{k-1}$

在这里插入图片描述
那么上一次提到的公式也可以进行转换，对于任意的 $g = A (D) \in H$ 并且数据样本 $D$ 足够大且 $k \geq 3$ 时，有：
$P_{D}(\left | E_{in}(g)-E_{out}(g) \right | >\epsilon) ≤4m_{H}(2N)e^{-\frac{1}{8}\epsilon^{2}N}≤4(2N)^{k-1}e^{-\frac{1}{8}\epsilon^{2}N}$

此时， $m_{H}(N)$ 存在 $\ point$ ，说明拥有好的 ${\color{Violet}hypothesis(H)}$ ； $N$ 取足够大，说明拥有好的 ${\color{Violet}data(D)}$ ；演算法 $A$ 中选择的 $g$ 具有小的 $E_{in}$ ，说明拥有好的 ${\color{Violet}A}$ ；在具备了这些条件以后机器就可以进行学习了！

$\bullet$ ${\color{Brown}VC \ dimension}$ ：它指的是不超过 $\ point$ 的最大的数（maximum）。记为 $d_{vc}$ 用公式表示就为：
$d_{vc}='minimum \ k'-1$
当 $N≤d_{vc}$ 时，N个点都可以被区分开来。
当 $N>d_{vc}$ 时，N个点不可以可以被区分开来。最多区分 $k - 1$ 个点。
所以当 $N \geq 2$ ， $d_{vc}≥2$ 时， $m_{H}(N)≤N^{d_{vc}}$ 。

对于我们前面提到的几种成长函数来说，它们都有各自的 $\ dimension$ ：

$\triangleright$ $positive \ rays : d_{vc}=1$
$\triangleright$ $positive \ intervals : d_{vc}=2$
$\triangleright$ $\ sets : d_{vc}=\infty$
$\triangleright$ $2D \ perceptrons : d_{vc}=3$

$\bullet$ 练习

这里有一组 $N$ 个点的输入，它们不能被 $H$ 完全区分，那么下面关于 $d_{vc}(H)$ 的哪个说法时正确的？

a. $d_{vc}(H)>N$
b. $d_{vc}(H)=N$
c. $d_{vc}(H)<N$
d. 不能给出结论

可能有另外一组输入N个点可以被H完全区分，但是也有可能所有的输入N个点都不能被区分，所以只给一组输入的话，不能判断到底是哪一种情况。选d。

2. 感知机的VC维度

前面我们重点学习了 $\ perceptrons$ 模型的成长函数，知道它的 $\ point = 4$ ，所以 $d_{vc}=3$ ，又由于 $\ perceptrons$ 的 $d_{vc}=2$ ，所以我们推断 $\ perceptrons$ 的 $d_{vc}=d+1 \ ?$

为了验证这一结论，我们分别从 $d_{vc} \ge d+1$ 和 $d_{vc} \le d+1$ 两个方向进行验证。

$\bullet$ ${\color{Violet}d_{vc} \ge d+1}$ ：这一结论等价于存在 $d + 1$ 个点可以被完全区分。

在 $d$ 维空间里，我们将 $d + 1$ 个点的坐标用矩阵的形式表示出来，注意还要为每一个点前面加一个维度，表示前面提到的阈值（详细见二）：
$\begin{matrix} X & = & \begin{bmatrix} -& x_{1}^{T} &- \\ -& x_{2}^{T} &- \\ -& x_{3}^{T} &- \\ -& ... &- \\ -& x_{d+1}^{T}&- \end{bmatrix} & = & \begin{bmatrix} 1 & 0 & 0 & \cdots & 0\\ 1 & 1 & 0 & \cdots & 0\\ 1 & 0 & 1 & \cdots &0 \\ \vdots & \vdots & & \ddots & 0\\ 1 & 0 & \cdots & 0 & 1 \end{bmatrix} \end{matrix}$

很明显我们的 $X$ 矩阵是可逆的，接下来我们就要寻找是否存在 $w$ 可以被解出来，现在我们有生成的结果 $y$ 向量：
$\begin{matrix} y & = & \begin{bmatrix} y_{1} \\ \cdots \\ y_{d+1} \end{bmatrix} \end{matrix}$

那么带入计算公式解得 $w$ ，得证：
$\Leftarrow {\color{Red}(Xw)=y} \Leftrightarrow w = X^{-1}y$

$\bullet$ ${\color{Violet}d_{vc} \le d+1}$ ：这一结论等价于最多只有d+1个点被区分。

在 $d$ 维度空间里面，对于任意的 $d + 2$ 个点一定不会被完全区分，我们现在给出 X矩阵如下：
$\begin{matrix} X & = & \begin{bmatrix} -& x_{1}^{T} &- \\ -& x_{2}^{T} &- \\ -& \cdots &- \\ -& x_{d+1}^{T} &- \\ -& x_{d+2}^{T} &- \end{bmatrix} \end{matrix}$
在线代里面我们知道 $n + 1$ 个 $n$ 维向量总是线性相关的，所以现在的矩阵 $X$ 也是线性相关的，那么我们就可以用前 $d + 1$ 个列向量表示第 $d + 2$ 个列向量，如下：
$x_{d+2} = {\color{Blue}a_{1}}x_{1}+{\color{Red}a_{2}}x_{2}+...+{\color{Red}a_{d+1}}x_{d+1}$
我们假设 $a_{i}$ 与对应的 $w^{T}x_{i}$ 符号恰好相同，蓝色代表负数，红色代表正数，第一个数为负数，后面所有的数都有正数，那么给等式两边同时乘以 $w^{T}$ ，得到：
$w^{T}x_{d+2} = {\color{Blue}a_{1}}w^{T}x_{1}+{\color{Red}a_{2}}w^{T}x_{2}+...+{\color{Red}a_{d+1}}w^{T}x_{d+1}>0$
所以存在这种情况使得d+2个点无法完全区分。

$\bullet$ 综上所述，对于 $d$ 维感知机来说，它的 $d_{vc}=d+1$ 。

3. 直观的看待VC维度

对于假设里面存在的 $w=(w_{0},w_{1},...w_{d})$ ，我们把 $w$ 看做是自由度（features），它可以进行任意的调节。

$\ Dimension$ 是可以区分的最大点数，在大部分情况下， $f e a t u r e s$ 与它相同。
$d_{vc} ≈ \#free \ parameters(but \ not \ always)$

4. 对VC维度更深的解释

$\bullet$ 之前我们提到过了 $\ Bound$ 函数，它计算的是出现 $B A D$ 情况的概率，公式如下：
$P_{D}[\underset{BAD}{\underbrace{|E_{in}(g)-E_{out}(g)|>\epsilon}} ] \le \underset{\delta }{\underbrace{4(2N)^{d_{vc}}e^{-\frac{1}{8} \epsilon ^{2}N}}}$

我们将这个出错概率记为 $\delta$ ，所以正确的概率就可以表示为 $1-\delta$ ，我们计算的也就是 $|E_{in}(g)-E_{out}(g)| ≤ \epsilon$ 。那么现在进行求解，过程如下：
$\begin{matrix} \delta & = &4(2N)^{d_{vc}}e^{-\frac{1}{8} \epsilon ^{2}N} \\ \frac{\delta }{4(2N)^{d_{vc}}} & = & e^{-\frac{1}{8}\epsilon ^{2}N} \\ ln(\frac{\delta }{4(2N)^{d_{vc}}}) & = &-\frac{1}{8}\epsilon ^{2}N \\ \sqrt[]{\frac{8}{N} ln(\frac{\delta }{4(2N)^{d_{vc}}})} & = & \epsilon \end{matrix}$
得到 $\epsilon$ 后，就可以进行推导得出 $E_{out}(g)$ 的范围：
${\color{Grey}E_{in}(g)- \sqrt[]{\frac{8}{N} ln(\frac{\delta }{4(2N)^{d_{vc}}})}} \le E_{out}(g) \le E_{in}(g)+ \sqrt[]{\frac{8}{N} ln(\frac{\delta }{4(2N)^{d_{vc}}})}$

我们重点关注的是它的上界，将 $\epsilon$ 也就是根号里面的内容记住 $Ω(N,H,\delta)$ （model complexity）。对于这一块可以进行作图：
在这里插入图片描述
那么我们为了选择较小的 $E_{out}(g)$ 就不能一昧的将 $d_{vc}$ 增大，最终要选择到一个均衡的位置。

$\bullet$ 接下来我们要关注的就是样本复杂度（Sample Complexity），因为我们之前选的上界一直都比较宽松，那么到了后它的误差就会大一点。根据理论求得最终如果想要好的结果，那么：
$N≈10000d_{vc}$
实际上，在平时根本用不到这么多的数据，比如说对于一条直线来说，我们选择二三十个点已经足够了，一般来说：
$N≈10d_{vc}$