《机器学习基础》学习笔记-第二章 PAC学习框架-2.3对有限假设集的学习保证(不一致的情况)

本文链接：https://blog.csdn.net/weixin_44585637/article/details/130587532

文章探讨了在假设集中不存在与训练样本完全一致的假设时，如何通过PAC理论理解和处理不一致性。利用Hoeffding不等式，推导出了关于单个假设的泛化误差界的结论，并通过抛硬币的例子进行了直观解释。进一步，文章指出，对于有限的假设集，可以保证至少一定的概率下，所有假设的泛化误差不超过经验误差加上一个与集合大小和置信度相关的项。这为理解机器学习算法在面对不一致数据时的性能提供了理论支持。

摘要由CSDN通过智能技术生成

2.3-第二类：不一致的情况讨论

引言：现实中，可能再假设集H里不存在与带标签的训练样本完全一致的假设，这种情况可以说对于自然问题比较常见。但，不一致，并不意味着不能学习，在训练样本上允许少量误差的不一致假设可能是满足使用要求的，并且这种假设在一定条件下是满足PAC理论的。

下面我们给出说法：
由Hoffding不等式，易知以下：
引理 2.3.1 若训练集S包含m个从分布D上独立同分布采样得到的样例，固定 $\varepsilon>0$ ，则对任意的 $h\in H$ ,有
$\underset{S \sim D^m}{\mathbb{P}}\left[\widehat{R}_S(h)-R(h) \geq \epsilon\right] \leq \exp \left(-2 m \epsilon^2\right) \\ \underset{S \sim D^m}{\mathbb{P}}\left[\widehat{R}_S(h)-R(h) \leq-\epsilon\right] \leq \exp \left(-2 m \epsilon^2\right)\\ \underset{S \sim D^m}{\mathbb{P}}\left[\left|\widehat{R}_S(h)-R(h)\right| \geq \epsilon\right] \leq 2 \exp \left(-2 m \epsilon^2\right)$

推论2.3.2 - 单一假设的泛化界 若训练集S包含m个从D分布上随机独立同分布取出的样例， $\varepsilon>0$ ，则对于任意某一个固定的 $h\in H$ ，有以下对于至少 $1-\delta$ 的概率成立：
$\widehat{R}_S(h)-\sqrt{\frac{\log \frac{2}{\delta}}{2 m}} \leq R(h) \leq \widehat{R}_S(h)+\sqrt{\frac{\log \frac{2}{\delta}}{2 m}}$

推论2.3.2表明，样例数目m较大时，h的经验误差是其泛化误差很好的近似。
下面，举例说明上面个的推论。
【例-抛硬币】设想我们在抛一枚偏重的硬币，其向上的概率为p。而我们假设总是猜测抛硬币的结果是反面。那么，在这样的设定下，真实错误率为R(h) = p，对应地，通过i.i.d. 训练样本可以得到一个正面向上的经验概率 $\hat{p}$ ，进而得到经验错误率为 $\hat{R}(h) = \hat{p}$ 。根据推论2.3.2，我们有如下的保证：
$|p-\hat{p}|\leq \sqrt{\frac{log \frac{2}{\delta}}{2m}}$
因此，如果我们设定， $\delta = 0.02$ 并采用500个训练样本，则以至少98%的概率，对于 $\hat{p}$ 的精度有以下保证：
$|p-\widehat{p}| \leq \sqrt{\frac{\log (10)}{1000}} \approx 0.048$

OK，例子就到这里，言归正传。
现在我们考虑这么一个问题，通过上面的推论2.3.2，我们能不能拿来直接用与PAC-Learnable得到返回的假设hs？
答案是否定的，因为推论2.3.2是针对某个单一的假设而言的，且其经验误差的期望等于泛化误差（y大数定律，第2.1节）但对于一个训练样本来说，当假设hs不固定时，泛化误差R（hs）就是一个随机变量，而一般与经验误差的期望E( R )（常数）不同。
引出，以下定理：
定理 2.3 令H为一个有限的假设集，则对于任意的 $\delta>0$ ，以至少为1- $\delta$ 的概率，有下面的不等式成立：
$\forall h \in \mathcal{H}, \quad R(h) \leq \widehat{R}_S(h)+\sqrt{\frac{\log |\mathcal{H}|+\log \frac{2}{\delta}}{2 m}}$
证明：
令 $h_1 ,h_2 ,......,h_{|H|}$ 表示假设空间H中的假设，有：
$\begin{array}{l} \mathbb{P}\left[\exists h \in \mathcal{H}\left|\widehat{R}_S(h)-R(h)\right|>\epsilon\right] \\ =\mathbb{P}\left[\left(\left|\widehat{R}_S\left(h_1\right)-R\left(h_1\right)\right|>\epsilon\right) \vee \ldots \vee\left(\left|\widehat{R}_S\left(h_{|\mathcal{H}|}\right)-R\left(h_{|\mathcal{H}|}\right)\right|>\epsilon\right)\right] \\ \leq \sum_{h \in \mathcal{H}} \mathbb{P}\left[\left|\widehat{R}_S(h)-R(h)\right|>\epsilon\right] \\ \leq 2|\mathcal{H}| \exp \left(-2 m \epsilon^2\right) . \end{array}$
所以，令 $\delta=2|\mathcal{H}| \exp \left(-2 m \epsilon^2\right)$
证毕。