Foundations of Machine Learning———PAC

LazyHaokj

已于 2022-09-11 17:57:46 修改

阅读量544

点赞数

分类专栏：深度学习文章标签：机器学习人工智能深度学习

于 2022-07-06 18:32:24 首次发布

本文链接：https://blog.csdn.net/weixin_44192389/article/details/125645554

版权

深度学习专栏收录该内容

6 篇文章 1 订阅

订阅专栏

内容纲要

2.4 泛化性

2.4.1 确定性与随机性情境

对于监督学习，分布D定义在 $X×Y\mathcal{X}\times\mathcal{Y}$ 上，并且训练样本是根据D采样得到的i.i.d.的样本：

 $,(xm,ym)}S=\{(x_1,y_1),\cdots,(x_m,y_m)\}$

学习的目的就是找到一个假设 $h∈Hh\in H$ ，使得泛化误差较小：

 $R(h)=Pr(x,y)∼D[h(x)≠y]=E(x,y)∼D[1(h(x)≠y)]R(h)=\mathop{Pr}\limits_{(x,y)\sim D}[h(x)\ne y]=\mathop{E}\limits_{(x,y)\sim D}[1(h(x)\ne y)]$

更一般的情境是随机性情境，学习算法输出的标签是输入的概率函数，输入对应的标签不是唯一的。
举个例子，比如对于人的特征长头发，男人占比10%，女人占比90%，那么在对这个特征预测性别时，学到的是一个概率的分布。
此时对于PAC学习就有了一个很自然的扩展——不可知PAC学习

令H为一个假设集。A是一个不可知PAC学习算法的条件是：存在一个多项式函数 $poly(⋅,⋅,⋅,⋅)poly(\cdot,\cdot,\cdot,\cdot)$ 使得对于任意 file 以及 file ，对于所有在 $X×Y\mathcal{X}\times\mathcal{Y}$ 上的分布D，对于满足 $m≥poly(1/ϵ,1/δ,n,size(c))m\ge poly(1/\epsilon,1/\delta,n,size(c))$ 的任意样本规模有下面的不等式成立：

 $PrS∼Dm[R(hs)−minh∈HR(h)≤ϵ]≥1−δ\mathop{Pr}\limits_{S\sim D^m}[R(h_s)-\mathop{min}_{h\in H}R(h)\le \epsilon]\ge 1-\delta$

进一步地，如果算法 $A\mathcal{A}$ 可在 $poly(1/ϵ,1/δ,n,size(c))poly(1/\epsilon,1/\delta,n,size(c))$ 内执行，则其可被称为一个高效的不可知PAC学习算法。

当一个样本的标签可以由某个唯一的可测函数 $f:X→Yf:\mathcal{X}\rightarrow\mathcal{Y}$ （以概率1成立）确定时，这种情境被称为确定性情境。

2.4.2 贝叶斯误差与噪声

首先明确一件事：对于确定性情境，存在一个没有泛化误差的目标函数 $f\mathcal{f}$ 使得 $R (h) = 0$ ，对于随机性情境，对于任意假设，存在一个最小的非0误差。

贝叶斯误差：给定一个在 $X×Y\mathcal{X}\times\mathcal{Y}$ 上分布D，相应的贝叶斯误差 $R^{ * }$ 定义为由可测函数类 $h:X→Yh:\mathcal{X}\rightarrow\mathcal{Y}$ 产生的误差下界：

 $R^{ * }=\mathop{inf}\limits_{h\;measurable}R(h)$

一个满足 $R(h)=R^{*}$ 的假设 $h\mathcal{h}$ 被称为贝叶斯假设或贝叶斯分类器。
根据定义，对于确定性的情境，我们有 $R^{ * }=0$ ，但是对于随机性情境， $R^{ * }≠0$ 。进一步地，贝叶斯分类器 $h_{bayes}$ 可以用条件概率进行定义：

 $∀x∈X,hBayes(x)=argmaxy∈[0,1]Pr[y∣x]\forall x\in X,h_{Bayes}(x)=\mathop{argmax}\limits_{y\in[0,1]}Pr[y|x]$

这里举一个上一个例子帮助理解，当我们此时有一个长头发的人时，我们有10%的概率预测其为男性，90%的概率预测其为女性，那么根据贝叶斯最优分类器的定义，我们会认为其为女性，但是这样的判断也仅仅是根据概率分布来的，但是会存在误差，这个误差无法避免，这就是贝叶斯误差。

$h_{bayes}$ 在 $x∈Xx\in \mathcal{X}$ 的平均误差为 $min\{Pr[0|x],Pr[1|x]\}$ ，这是最小的，可能误差。

噪声：给定一个在 $X×Y\mathcal{X}\times\mathcal{Y}$ 上的分布D，在样本点 $x∈Xx\in \mathcal{X}$ 上的噪声定义为：

 $noise(x)=min\{Pr[1|x],Pr[0|x]\}$

则平均噪声或称关于分布D的噪声为 $E [n o i s e (x)]$ 。

平均噪声严格的等于贝叶斯误差： $noise=E[noise]=R^{*}$ 。可以将噪声看作对学习任务难易程度的刻画。对于一个样本点 $x∈Xx\in \mathcal{X}$ ，若 $n o i s e (x)$ 接近1/2，则往往被称为噪点，对这种点的精确预测也是极具挑战性的。

2.4.3 估计误差与近似误差

对于一个假设 $h∈Hh\in H$ 的误差和贝叶斯误差，按如下分解二者之差:

 $R(h)−R∗=R(h)−R(h∗∗)⏟估计误差+R(h∗)−R∗∗⏟近似误差R(h)-R^{ * }=\underbrace{R(h)-R(h^{ **})}_{估计误差}+\underbrace{R(h^{ * })-R^{ **}}_{近似误差}$

其中， $h^ *$ 表示H中误差最小的假设，或者称为类中最优假设(best-in-class hypothesis)

第一项指的是估计误差，该误差依赖于所选定的假设 $h$ ，衡量的是选定的假设与类中最优假设的相近程度，不可知PAC学习的定义便是基于此。
对于算法 $A\mathcal{A}$ ，其估计误差是指其根据训练样本集 $S$ 产生的假设 $h_s$ 的估计误差，这种误差有时可以由泛化误差界定。

例如，令 $h_s^{ERM}$ 表示具有最小经验误差的假设，其估计误差推理如下：
file
第二项指的是近似误差，衡量的是用H对贝叶斯误差的近似程度，可以看作是假设集H的一个性质，衡量假设集H的丰富程度。并且近似误差在实际中无法求出，因为潜在分布是未知的。

2.4.4 模型选择

我们有了问题的设定，有了训练集的加持，也有了对于最终误差的一个大致估计，选择算法模型的时候，什么样的模型才是一个合理的，在保证精度的同时还能降低复杂度，下面就是模型选择的理论基础。

选择算法模型时应该考虑算法的两个属性：经验误差以及复杂度项。
对于ERM算法，即经验风险最小化算法，其考虑的是找到一个在训练集上误差最小的假设：

 $hsERM=argminh∈HR^s(h)h_s^{ERM}=\mathop{argmin}\limits_{h\in H}\hat{R}_s(h)$

但是却忽视了复杂度项，往往表现的一般。另一种策略是SRM算法，即结构风险最小化，考虑的是一个势不断增长的无线假设集序列：

 $H0⊂H1⊂⋯Hn⋯H_0\subset H_1\subset\cdots H_n\cdots$

并对每个 $H_n$ 对应的ERM解 $hnERMh^{ERM}_n$ ，最终从这些解 $hnERMh^{ERM}_n$ 中选择一个假设，使得经验误差和复杂度项 $complexity(H_n,m)$ （依赖样本规模m和假设集 $H_n$ 的大小）或者说是假设集 $H_n$ 的容纳性（capacity，丰富程度的另一种度量）的和最小:

 $hsSRM=argminh∈H,n∈NR^s(h)+complexity(Hn,m)h_s^{SRM}=\mathop{argmin}\limits_{h\in H,n\in N}\hat{R}_s(h)+complexity(H_n,m)$

file
SRM有很强的理论保证，但是往往计算开销很大，因为要计算多个ERM问题，找到最小的那个。但是当误差为0时，不易计算无限多个，因为假设集的复杂度随n在递增，所以找到误差为0时可以停止。

当然存在一种替代的直接的优化，即最小化经验误差和正则项（regularization term，用于对更复杂的假设给予惩罚）之和。这里当H为向量空间时，正则项通常定义为 $h||^2$ ，即二范数：

 $hsERM=argminh∈HR^s(h)+λ∣∣h∣∣2h_s^{ERM}=\mathop{argmin}\limits_{h\in H}\hat{R}_s(h)+\lambda||h||^2$

其中 $λ\lambda$ 为正则因子，用于权衡经验误差和模型复杂度，很多算法的设计都是基于此。

Post Views: 1

LazyHaokj

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录