Hoeffding霍夫丁不等式及其在集成学习理论的应用

Hoeffding不等式在机器学习中用于研究泛化误差的概率上界,通过比较不同学习方法的误差上界来评估其优劣。本文探讨了伯努利随机变量特例、一般情况,并应用到集成学习的错误率上界,揭示了样本数量与预测准确性之间的关系。
摘要由CSDN通过智能技术生成

Hoeffding霍夫丁不等式

机器学习中,算法的泛化能力往往是通过研究泛化误差的概率上界所进行的,这个就称为泛化误差上界。直观的说,在有限的训练数据中得到的规律,则认为真实的总体数据中也是近似这个规律的。比如一个大罐子里装满了红球和白球,各一半,我随手抓了一把,然后根据这些红球白球的比例预测整个罐子也是这样的比例,这样做不一定很准确,但结果总是近似的,而且如果抓出的球越多,预测结果也就越可信。

对于两种不同的学习方法,通常比较他们的误差上界来决定他们的优劣。hoeffding不等式于1963年被Wassily Hoeffding提出并证明,用于计算随机变量的和与其期望值偏差的概率上限。下面我们理清hoeffding 不等式的来龙去脉。

1.伯努利随机变量的特例

我们假定一个硬币A面朝上的概率为 p p ,则B面朝上的概率为 1 p 。抛n次硬币,A面朝上次数的期望值为 np n ∗ p 。则A面朝上的次数不超过k次的概率为:

P(H(n)k)=i=0kCinpi(1p)ni=i=0kn!i!(ni)!pi(1p)ni(237) (237) P ( H ( n ) ≤ k ) = ∑ i = 0 k C n i p i ( 1 − p ) n − i = ∑ i = 0 k n ! i ! ( n − i ) ! p i ( 1 − p ) n − i

其中 H(n) H ( n ) 为抛n次硬币A面朝上的次数。

对某一 ε>0 ε > 0 k=(pε)n k = ( p − ε ) n 时,有Hoeffding不等式

P(H(n)(pε)n)e2ε2n(238) (238) P ( H ( n ) ≤ ( p − ε ) n ) ≤ e − 2 ε 2 n

对应的,当 k=(p+ε)n k = ( p + ε ) n 时,
P(H(n)(p+ε)n)e2ε2n(239) (239) P ( H ( n ) ≥ ( p + ε ) n ) ≤ e − 2 ε 2 n

由此我们可以推导出
P((pε)nH(n)(p+ε)n)12e2ε2n(240)
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值