Hoeffding霍夫丁不等式及其在集成学习理论的应用

最新推荐文章于 2022-06-10 20:37:11 发布

xhhszc

最新推荐文章于 2022-06-10 20:37:11 发布

阅读量1.8k

点赞数 2

分类专栏：机器学习文章标签：机器学习集成学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xhhszc/article/details/79979840

版权

Hoeffding不等式在机器学习中用于研究泛化误差的概率上界，通过比较不同学习方法的误差上界来评估其优劣。本文探讨了伯努利随机变量特例、一般情况，并应用到集成学习的错误率上界，揭示了样本数量与预测准确性之间的关系。

摘要由CSDN通过智能技术生成

Hoeffding霍夫丁不等式

机器学习中，算法的泛化能力往往是通过研究泛化误差的概率上界所进行的，这个就称为泛化误差上界。直观的说，在有限的训练数据中得到的规律，则认为真实的总体数据中也是近似这个规律的。比如一个大罐子里装满了红球和白球，各一半，我随手抓了一把，然后根据这些红球白球的比例预测整个罐子也是这样的比例，这样做不一定很准确，但结果总是近似的，而且如果抓出的球越多，预测结果也就越可信。

对于两种不同的学习方法，通常比较他们的误差上界来决定他们的优劣。hoeffding不等式于1963年被Wassily Hoeffding提出并证明，用于计算随机变量的和与其期望值偏差的概率上限。下面我们理清hoeffding 不等式的来龙去脉。

1.伯努利随机变量的特例

我们假定一个硬币A面朝上的概率为 $p$ ，则B面朝上的概率为 $1-p$ 。抛n次硬币，A面朝上次数的期望值为 $n*p$ 。则A面朝上的次数不超过k次的概率为：

P (H (n) \leq k) = \sum i = 0 k C i n p i (1 - p) n - i = \sum i = 0 k n ! i ! ( n - i ) ! p i (1 - p) n - i (237)

$\begin{equation} P(H(n)\leq k)=\sum_{i=0}^kC_n^ip^i(1-p)^{n-i}\\=\sum_{i=0}^k\frac{n!}{i!(n-i)!}p^i(1-p)^{n-i} \end{equation}$
其中

H(n) H ( n ) $H(n)$ 为抛n次硬币A面朝上的次数。

对某一 $\varepsilon>0$ 当 $k=(p-\varepsilon)n$ 时，有Hoeffding不等式

P (H (n) \leq (p - ε) n) \leq e - 2 ε 2 n (238)

$\begin{equation} P(H(n)\leq (p-\varepsilon)n) \leq e^{-2\varepsilon^2n} \end{equation}$
对应的，当

k=(p+ε)n k = ( p + ε ) n $k=(p+\varepsilon)n$ 时，

P (H (n) \geq (p + ε) n) \leq e - 2 ε 2 n (239)

$\begin{equation} P(H(n)\geq (p+\varepsilon)n) \leq e^{-2\varepsilon^2n} \end{equation}$
由此我们可以推导出

P ((p - ε) n \leq H (n) \leq (p + ε) n) \geq 1 - 2 e - 2 ε 2 n (240)

最低0.47元/天解锁文章

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。