泛化误差上界的证明，说明机器能进行学习和预测的基本原理。

最新推荐文章于 2022-08-23 20:57:08 发布

浅橙ook

最新推荐文章于 2022-08-23 20:57:08 发布

阅读量908

点赞数

分类专栏：机器学习理论知识文章标签：泛化误差机器学习理论证明

机器学习理论知识专栏收录该内容

2 篇文章 0 订阅

订阅专栏

通过简单的泛化误差上界的证明，说明机器能进行学习和预测的基本原理。

直观的理解

在有限的训练数据中得到一个规律，认为总体也是近似这个规律的，那么就能用这个规律进行预测。比如一个大罐子里装满了红球和白球，各一半，我随手抓了一把，然后根据这些红球白球的比例预测整个罐子也是这样的比例，这样做不一定很准确，但结果总是近似的，而且如果抓出的球越多，预测结果也就越可信。

上面的例子可以简单直观地理解一下预测的原理，其实还可以通过统计的方法对这个近似（用局部的规律近似总体的规律）的可信度进行概率分析。

将问题描述成更数学的形式：

损失函数（loss function）或者代价函数（cost function）度量预测错误的程度，记作 L(Y,f(x)) 。
期望损失（expected loss），即平均意义下的损失：
$R e x p (f) = E p [L (Y, f (X))] = \int X \times Y L (y, f (x)) P (x, y) d x d y$
经验损失（empirical loss），是关于训练数据集的平均损失：
$R e m p (f) = 1 N \sum i = 1 N L (y i, f (x i))$
根据大数定理，样本容量 N 趋近无穷时，经验风险趋近于期望风险： Remp(f)≈Rexp(f) ，也就是说：如果模型在训练样本中的期望风险很小，那么它也能使得期望风险很小。
但是当样本容量 N 不是无穷大的时候怎么办？

泛化误差上界（定理）：

对二分类问题，当假设空间是有限个函数集合\mathcal F=\left \\{ f_1,f_2,\cdot \cdot \cdot ,f_d \right \\}时，对任意一个函数 f∈F ，至少以概率 1−σ ，以下不等式成立：

R (f) ⩽ R^(f) + ε (d, N, δ)

其中，

ε (d, N, δ) = 1 2 N (log d + log 1 δ) - - - - - - - - - - - - - - - - \sqrt

不等式左端 R(f) R(f)是泛化误差，右端为泛化误差上界。泛化误差上界中，第一项是训练误差，训练误差越小，泛化误差也越小。第二项 ε(d,N,δ) ε(d,N,δ)， N N越大，值越小，假设空间 F F 包含的函数越多，值越大。

这个定理可以从概率上说明使用经验风险近似期望风险的可信度，它与样本数量以及假设空间的复杂度有关。

上述定理可通过Hoeffding不等式来证明:

Hoeffding不等式：
Hoeffding不等式适用于有界的随机变量。设有两两独立的一系列随机变量 X1,...,Xn 。假设对所有的 1⩽i⩽n ， Xi 都是几乎有界的变量，即满足 P(Xi∈[ai,bi])=1 ，那么这 n 个随机变量的经验期望： X¯=X1+⋅⋅⋅+Xnn 满足以下不等式：