【机器学习基石】机器学习的可行性（四）

最新推荐文章于 2022-12-05 21:33:20 发布

比奇堡咻飞兜

最新推荐文章于 2022-12-05 21:33:20 发布

阅读量609

点赞数 6

分类专栏：机器学习文章标签：机器学习可行性 Hoeffding

本文链接：https://blog.csdn.net/weixin_46308081/article/details/119518201

版权

机器学习专栏收录该内容

17 篇文章 5 订阅

订阅专栏

写在前面

本节主要介绍了机器学习结果的多样性，以及通过引入霍夫丁不等式迁移到机器学习中，通过增加假设使得机器学习结果变得准确，可行性更高。

本文整理自台湾大学林轩田的《机器学习基石》

1. 机器学习结果的多样性

$\bullet$ 首先引入一个例子，我们看下面的六幅图片，每幅图片都是由 $3 \times 3$ 的网格组成，每个格子中被涂为黑色或者白色。现在按照一定规律把它们分为两类，如下所示：
在这里插入图片描述

然后请你找出规律并判断下面这副图片属于哪一类：
在这里插入图片描述
首先我们可以认为 -1 类中的图形不对称，而 +1 类图形对称，按照这个规则，可以把下面的图形划分为 +1 类。但是也可以认为 -1 类图形左上角方块为黑色，而 +1 类图形左上角方块为白色，按这个标准可以把下面图形分为 -1 类。所以根据不同的规则会产生不同的结果，当我们给机器输入这六幅图片时，机器会产生不同的演算法，我们无法直接进行评判哪个正确哪个错误（按照产生的演算法来说每种假设都成立）。

$\bullet$ 上面那个例子可能有点抽象，下面来看一个具体的、数字化的例子。

现有输入特征 $x$ ，它有三个维度，每个维度都输入二进制的 0或1，现在有五个标记好的样本数据，有输入以及输出特征图形。机器由此产生不同的假设，是后面的 f₁~ f₈，我们可以看到每个假设在已知数据集上都是完全正确的，但是在剩下三个未知结果的数据上产生的输出各不相同，而我们也无法判断哪一个结果更优。机器学习的目的恰恰体现在对于训练集 $D$ 以外数据处理上。
在这里插入图片描述
$\bullet$ 通过上面两个例子，我们可以发现机器学习可以对数据进行很好的分类，但是我们不能确定哪一个分类结果更接近我们的预期，这种现象被叫做 $N F L$ (Not Free Lunch) 定理。如果想要进一步优化，使其得到我们预期的分类结果的话，还需要对其添加一些其他的假设结果。

2. 霍夫丁不等式（Hoeffding’s inequality）

下面我们引入统计学中的定理来对上面提到的问题进行解决，从而得到准确的预测分类。

现在下面有一个罐子，里面放有许多橙色和绿色的两种小球。如果我们想要知道罐子中橙色小球的概率 $μ$ ，那么就会从罐子内部随机取出一些小球（样本），计算样本中橙色小球的概率 $v$ 然后用此来估计罐子中橙色小球的概率。

在这里插入图片描述
那么样本中的橙色小球概率 $v$ 一定可以准确的预测总体中橙色小球的概率 $μ$ 吗？答案显然是否定的，但是从概率的角度来分析的话，概率 $v$ 有很大的可能是接近概率 $μ$ 的。

霍夫丁不等式告诉我们，当我们选取一个大的样本 N时， $v$ 很有可能时接近 $μ$ 的（误差范围 $\varepsilon$ ），不等式如下：
$P(\left | v - μ \right |＞\varepsilon )≤2e^{-2\varepsilon ^{2}N}$

当 $N$ 越大， $v$ 和 $μ$ 的差值就越小，而且被限定在 $\varepsilon$ 内。我们把最好的结果 $v = μ$ 时叫做 probably approximately correct（PAC）。

3. 将不等式与ML进行关联

通过对上面不等式的学习，我们尝试将该内容迁移到机器学习中来。

$\bullet$ 首先罐子中未知橙色球的概率对应机器学习中的未知目标函数；罐子中的球对应输入特征 $x$ ；橙色小球对应于假设中的函数错误 $(h (x) \neq = f)$ ；绿色小球对应假设中的正确函数 $(h (x) = f)$ ；罐子中选取的样本 $N$ 对应数据集 $D$ 。

$\bullet$ 根据上面一一对应，所以样本中橙球的概率对应 $M L$ 中 $h (x)$ 的错误概率，我们想要让假设中的函数 $h (x)$ 错误概率尽可能的小（准确率尽可能的高），因为样本与总体间存在的对应关系，这样总体的错误概率也会降低。

$\bullet$ 接下来我们引入两个值 $E_{in}(h)$ 和 $E_{out}(h)$ ，其中 $E_{in}(h)$ 表示样本中 $h (x)$ 判断错误的概率 $h(x)≠y_{n})$ ， $E_{out}(h)$ 表示总体中 $h (x)$ 判断错误的概率 $(h (x) \neq = f (x))$ 。它们的 $H o e f f d i n g$ 不等式可以表示为：
$P(\left | E_{in}(h) - E_{out}(h) \right |＞\varepsilon )≤2e^{-2\varepsilon ^{2}N}$

不等式说明，它们两个也满足 $P A C$ ，当 $E_{in}(h)$ 很小的时候，可以推断 $E_{out}(h)$ 也很小，那么就是 $h$ 和 $f$ 非常接近，机器学习选择的模型比较准确。所以从这个角度来说，我们只需要通过演算法选择最好的 $h$ ，使得 $E_{in}(h)$ 很小，从而提高模型的准确率。

4. 其他补充内容

上面只提到了一个罐子，也就是说只有一个假设，这显然与实际情况时不符合的。接下来我们进行实际的推广。

$\bullet$ 假设我们有 $M$ 个罐子，也就是对应机器学习里面的 $M$ 个假设。但是随着假设的增多，还会出现另一种情况，因为假设增多了，那么小概率事件也会有更大的几率出现，比如说我们罐子里面有一半橙球一半绿球，选择变多以后可能会会出现样本中全为绿球的情况，这时 $E_{in}(h)$ 很小，但是 $E_{in}(h)$ 和 $E_{out}(h)$ 的差别很大，这时产生的这个函数对于整体预测的准确度就会很低。

$\bullet$ 但是当 M 是有限个时，并且 N 足够大，坏情况出现的概率也就更低了，这时选择最小的 $E_{in}(h)$ 一般能保证函数 $g \approx f$ ，此时机器学习就是可行的。

$\bullet$ 对于每一个 $h$ ， $\ events$ 的概率 $B_{m}$ ： $\left | E_{in}(h_{m})-E_{out}(h_{m}) \right | >\varepsilon$ ，将所有的 $h$ 起来的话产生的概率为： $P(B_{1}\ or\ B_{2}\ or\ ...\ B_{M})$ ，继续转换以后得到： $P(B_{1}\ or\ B_{2}\ or\ ...\ B_{M})≤P(B_{1})+P(B_{2})+...+P(B_{M})$ 。此时不等式存在上限，不等式为：
$P(\left | E_{in}(h) - E_{out}(h) \right |＞\varepsilon )≤2Me^{-2\varepsilon ^{2}N}$

比奇堡咻飞兜

关注

6
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
【机器学习基石】机器学习的可行性（四）

目录写在前面1. 机器学习结果的多样性2. 霍夫丁不等式（Hoeffding's inequality）3. 将不等式与ML进行关联4. 其他补充内容写在前面本节主要介绍了机器学习结果的多样性，以及通过引入霍夫丁不等式迁移到机器学习中，通过增加假设使得机器学习结果变得准确，可行性更高。本文整理自台湾大学林轩田的《机器学习基石》1. 机器学习结果的多样性∙\bullet∙ 首先引入一个例子，我们看下面的六幅图片，每幅图片都是由 3×33×33×3 的网格组成，每个格子中被涂为黑色或者白色。现在按
复制链接

扫一扫