学习理论-模型选择-2-训练样本数量与误差上界

最新推荐文章于 2023-05-03 18:01:04 发布

yzheately

最新推荐文章于 2023-05-03 18:01:04 发布

阅读量8.9k

点赞数 3

分类专栏：机器学习打基础

本文链接：https://blog.csdn.net/yzheately/article/details/51104867

版权

机器学习同时被 2 个专栏收录

34 篇文章 2 订阅

订阅专栏

打基础

33 篇文章 0 订阅

订阅专栏

在模型选择-1-问题引入中我们知道，我们要获得尽可能小的泛化误差。下面让我们一起看看泛化误差与样本数量和模型数量的关系。

当 $\mathcal H$ 中模型数有限时

证明一致收敛性

我们假设 $\mathcal H =\{h_1,...,h_k\}$ ,这里只考虑二分类情况，即 $\mathcal H$ 中每个模型都能够将样本 $\mathcal X$ 映射到 $\{0,1\}$ 。
假如选定 $\mathcal H$ 中的某个模型 $h_i$ ，定义 $Z$ 是一个伯努利随机变量( $Z\in \{0,1\}$ )，对于样本集 $(x,y)\sim \mathcal D$ ,我们使 $Z=I\{ h_i(x)\not = y \}$ ，即对于任意样本输入样本，我们用 $Z$ 表示 $h_i$ 是否将它误分类。进而我们用 $Z_j=I\{ h_i(x^{(j)})\not = y^{(j)} \}$ 表示第j个样本是否被 $h_i$ 误分类。因为我们的样本集满足独立同分布，因此 $Z_j$ 也服独立同分布。
回想之前对训练误差的定义: $\hat{\epsilon}(h)=\frac{1}{m}\sum^m_{i=1}I\{ h(x^{(i)})\not = y^{(i)} \}$ ，因此这里我们可以改写成 $\hat{\epsilon}(h_i)=\frac{1}{m}\sum^m_{j=1}Z_j$ ，这里的 $Z_j$ 是满足伯努利分布的，因此可以利用模型选择-1-问题引入中给出的第二个fact（Hoeffding不等式）得到：
这里写图片描述
上式说明，对于确定的 $h_i$ 当样本数量 $m$ 很大时,训练误差将会非常接近泛化误差（实际误差）。下面将它推广到整个模型集 $\mathcal H$ ：
首先，令 $A_i$ 代表 $|\epsilon(h_i)-\hat{\epsilon}(h_i)|>\gamma$ .我们可得：
这里写图片描述
第一行是指：我们的模型中只要有一个满足条件即可，或者说至少要有一个满足条件，因为我们只需要选择出一个最好的模型。第二行以及后面的显然是成立的。
两边同时用1减得：

该条件称为，一致性收敛（uniform convergence），它是说明，当m足够大时，假设集中的所有 $h_i$ 的训练误差与泛化误差都会很接近。
如果给定 $\gamma$ 和 $\delta=2ke^{-2\gamma^2m}$ 需要多少训练样本才能保证训练误差与泛化误差的差值在 $\gamma$ 以内的概率为 $1-\delta$ 呢？
我们可以得到 $m\geq\frac{1}{2\gamma^2}\log\frac{2k}{\delta}$ .

同样的我们可以固定 $m$ 和 $\delta$ 进而求 $\gamma$ ，得到： $|\hat{\epsilon}(h)-\epsilon(h)|\leq\sqrt{\frac{1}{2m}\log\frac{2k}{\delta}}$

使用一致收敛性得出结论

基于一致收敛性，
令 $\hat{h}=\arg\min_{h\in\mathcal H}\hat{\epsilon}(h)$
令 $h^*=\arg\min_{h\in\mathcal H}\epsilon(h)$
$\hat{h}$ 是我们的算法选择的模型， $h^*$ 是模型集中实际上最好的一个。
我们可以得到下面的结论：
这里写图片描述
第一行使用了条件 $|\epsilon(\hat h)-\hat{\epsilon}(\hat h)| \leq \gamma$ ,第二行的依据是，我们的算法选择 $\hat h$ 时，对应的 $\hat \epsilon(h)$ 是最小的。因此对于任意的 $\hat\epsilon(\hat h) \leq \hat\epsilon(h)$ ,故可得第二行；第三行再次使用了一致性收敛条件。
因此，可知，如果满足了一致性收敛，那么我们的算法选择出的模型 $\hat h$ 的泛化误差最多比模型集 $\mathcal H$ 中最好的模型高出 $2\gamma$ .

因此令 $|\mathcal H |=k$ ,固定 $m,\delta$ 不变，我们有 $1-\delta$ 概率可得：
这里写图片描述
显然不等式右面第二项就是 $\gamma$ .
这个式子实际上描述了偏差与方差的权衡；当模型数量增加时右面第一项只会减小，不会增大，但是第二项却因为k变大而增大；第一项其实反映了偏差，第二项反映了方差。
令 $|\mathcal H |=k$ , $\delta,\gamma$ 不变，为了使得 $\epsilon(\hat h) \leq \min_{h\in\mathcal H}\epsilon(h)+2\gamma$ 的概率最好少为 $1-\delta$ ，可得：
这里写图片描述

当 $\mathcal H$ 中模型数无限时

为了简化处理，我们由一个不太严谨的假设开始：
假设 $\mathcal H$ 中的模型全是线性回归模型，模型的参数有d个，假设一个浮点型在计算机中用64位表示，那么，，那么 $\mathcal H$ 中可能的假设模型共有 $2^{64d}$ 种组合，即 $k=2^{64d}$ .这样利用之前证明的结论，为了保证 $\epsilon(\hat h) \leq \epsilon(h^*)+2\gamma$ 的概率至少为 $1-\delta$ ，需要满足这里写图片描述
因此，训练样本数量至少与参数数量线性相关。
虽然这个假设不严谨，但是他却是合理的，且可以推广到k为无限大的情况：
因为对于线性回归分类 $h_\theta(x)=I\{ \theta_0+\theta_1x_1+...+\theta_n x_n \geq 0 \}$ 也可以写成 $h_{u,v}(x)=I\{ (u_0^2-v_0^2)+(u_1^2-v_1^2)x_1+...+(u_n^2-v_n^2)x_n \geq 0 \}$ ，参数数量可以增大到无限，且他们都是模型集 $\mathcal H$ 中的参数。 $\mathcal H$ 一直是n维中的线性分类模型的集合。

给定一个新的样本集 $\mathcal X$ （它和训练样本没有关系）以及类别集合 $\{y^{(1)},y^{(2)},...,y^{(d)}\}$ ，如果 $\mathcal H$ 中存在模型 $h$ 使得对于任意的 $i=1,...,d$ 都有 $h(x^{(i)})=y^{(i)}$ ，那么称 $\mathcal H \ 分散（shatters）\ S$ ，即 $存在h$ 能够完美的对 $S$ 中的样本分类。
看下面的图来说明分散问题(shatters)：
这里写图片描述
由图可知二维坐标系中的任意两个点必然可以被线性分类器shatter.

可见二维坐标中的三个点也可以被线性分类器shatter.

显然二维坐标系中的四个点必然存在不能被线性分类器shatter的情况。

给定一个 $\mathcal H$ ，我们定义它的Vapnik-Chervonenkis dimension（简称VC尺度）为 $VC(\mathcal H)$ ，VC尺度表示 $\mathcal H$ 所能shatter的最大的样本数，若 $\mathcal H$ 能够shatter任意多的样本，那么 $VC(\mathcal H)=\infty$ .

begin-补充-VC维

在二维坐标系中，三个样本点的情况下存在下面分布情况，左图是三个样本的分布位置，右图是在在这三个位置上可能出现的一种分布情况，显然在这种分布下他是无法被线性分类器shatter的。
这里写图片描述
但是，当我们给予这三个点不同的坐标，可以找到使得他们能够被shatter的情况，比如三个点的位置如下，显然这就是我们上面的例子中的分布，基于这三个点的当前位置的所有组合（共 $2^3$ 个可能组合）都是可以被线性分类器成功分类，因此三个样本是可以被shatter的：
这里写图片描述

但是对于二维坐标系中的四个点，必然是不能被线性分类器shatter的，即无法给四个样本找到固定的坐标，使得基于当前坐标的 $2^4$ 种可能的分布都能够被线性分类器成功分类。

因此，线性分类器，在二维坐标系中的VC维 $d=3$ .

end-补充

下面给出Vapnik和Chervonenkis基于VC维证明得到的结论：
对于某一 $\mathcal H$ ，已知 $d=VC(\mathcal H)$ ，那么对于所有的 $h\in\mathcal H$ ，至少有 $1-\delta$ 的概率满足下式：
这里写图片描述
因此可知，至少有 $1-\delta$ 的概率满足下式：

上式说明，当 $\mathcal H$ 的VC维有限时，那么它随着样本数量m的增加是一致收敛的。

下面得到我们的结论：
对于 $h\in\mathcal H$ ,为了使得 $|\epsilon(h)-\hat{\epsilon}(h)|\leq\gamma$ （即 $\hat{\epsilon}(h) \leq \epsilon (h^*)+ 2\gamma$ ）的概率至少为 $1-\delta$ ，那么必须有 $m=\mathit O_{\gamma,\delta}(d)$