Hoeffding霍夫丁不等式及其在集成学习理论的应用

标签: 机器学习 集成学习
18人阅读 评论(2) 收藏 举报
分类:

Hoeffding霍夫丁不等式

机器学习中,算法的泛化能力往往是通过研究泛化误差的概率上界所进行的,这个就称为泛化误差上界。直观的说,在有限的训练数据中得到的规律,则认为真实的总体数据中也是近似这个规律的。比如一个大罐子里装满了红球和白球,各一半,我随手抓了一把,然后根据这些红球白球的比例预测整个罐子也是这样的比例,这样做不一定很准确,但结果总是近似的,而且如果抓出的球越多,预测结果也就越可信。

对于两种不同的学习方法,通常比较他们的误差上界来决定他们的优劣。hoeffding不等式于1963年被Wassily Hoeffding提出并证明,用于计算随机变量的和与其期望值偏差的概率上限。下面我们理清hoeffding 不等式的来龙去脉。

1.伯努利随机变量的特例

我们假定一个硬币A面朝上的概率为p,则B面朝上的概率为1p。抛n次硬币,A面朝上次数的期望值为np。则A面朝上的次数不超过k次的概率为:

(237)P(H(n)k)=i=0kCnipi(1p)ni=i=0kn!i!(ni)!pi(1p)ni

其中H(n)为抛n次硬币A面朝上的次数。

对某一ε>0k=(pε)n时,有Hoeffding不等式

(238)P(H(n)(pε)n)e2ε2n

对应的,当k=(p+ε)n时,
(239)P(H(n)(p+ε)n)e2ε2n

由此我们可以推导出
(240)P((pε)nH(n)(p+ε)n)12e2ε2n

特别的,当ε=lnnn时,
(241)P(|H(n)pn|nlnn)12e2lnn=12n2

2.伯努利随机变量的一般情况

令独立同分布随机变量X1,X2,...,Xn,其中Xi[ai,bi],则这些变量的经验均值为:X¯=X1+X2+,...,+Xnn
对于任意t>0

(898)P(|X¯E(X¯)|t)2e2n2t2i=1n(biai)2

Sn=X1+X2+,...,+Xn
(899)P(|SnE(Sn)|t)2e2t2i=1n(biai)2

证明如下:
霍夫丁引理:假设X为均值为0的随机变量且满足P(X[a,b])=1,有以下不等式成立:

E(esX)es2(ba)28

则对于独立随机变量X1,X2,...,Xn满足P(Xi[ai,bi])=1,对于t>0
P(SnE(Sn)t)=P(es(SnE(Sn))est)estE(es(SnE(Sn)))=esti=1nE(es(XiE(Xi)))esti=1nE(es2(biai)28)=exp(st+0.125s2i=1n(biai)2)

g(s)=st+0.125s2i=1n(biai)2,则g(s)为二次函数,当s=4ti=1n(biai)2时函数获得最小值。因此:
P(SnE(Sn)t)e2t2i=1n(biai)2

3.集成学习的错误率上界

类似于抛硬币的例子,对于集成学习中基学习器的错误率ϵ,

(1168)P(H(n)k)=i=0kCni(1ϵ)iϵni

表示n个基学习器中分类正确的个数小于k的概率。若假定集成通过简单投票法结合n个分类器,超过半数的基学习器正确,则集成分类就正确,即k=n/2=(1ϵε)n
P()=P(H(n)n2)=i=0n2Cni(1ϵ)iϵniexp(n2(12ϵ2))(ε=12ϵ)

其中,ε=12ϵ>0,也就是说,当错误率ε<0.5时,随着集成中基学习器的数目n的增大,集成的错误率将指数级下降,最终趋向于0。而当错误率ε0.5时,以上式子不成立。


参考文章:

机器学习数学原理(8)——霍夫丁不等式
Hoeffding不等式的认识以及泛化误差上界的证明

查看评论

机器学习数学原理(8)——霍夫丁不等式

机器学习数学原理(8)——霍夫丁不等式这一篇博文主要是为后面的介绍学习理论(Learning Theory)的博文做铺垫。在学习理论中将会使用到霍夫丁不等式作为其引论之一。当然也可以选择直接接受引论从...
  • z_x_1996
  • z_x_1996
  • 2017年06月22日 10:44
  • 5365

霍夫丁不等式及其他相关不等式证明

霍夫丁不等式及其他相关不等式证明 周志华老师的书和台大的基石课程都用到了,霍夫丁不等式,常见形式如下:随机变量xi,xi∈{0,1},x⎯⎯=1n(x1+x2+···+xn)随机变量x_i,x_...
  • h_hzhou
  • h_hzhou
  • 2017年07月31日 16:27
  • 1704

[机器学习][2]--霍夫丁不等式

[机器学习][2]--霍夫丁不等式   这一章是为了说明机器学习的可行性的。为了解决一个问题,即我们找到了一个符合要求的函数f,这个函数在测试数据中准确率为90%,那么是否有该函数f在整体中的正确...
  • WMN7Q
  • WMN7Q
  • 2017年02月10日 11:27
  • 3172

[台大机器学习笔记整理]机器学习问题与算法的基本分类&由霍夫丁不等式论证机器学习的可行性

Lesson 3  这节课主要是关于总体情况的一个介绍。集中在机器学习可以处理怎样的问题上。 在模型方面进行分类,主要是根据需要预测的结果进行分类 1)首先从PLA算法可以知道机器学习可以进行二...
  • inabaraku
  • inabaraku
  • 2016年07月08日 16:53
  • 2008

Hoeffding不等式

Hoeffding不等式是关于一组随机变量均值的概率不等式。 如果X1,X2,⋯,Xn为一组独立同分布的参数为p的伯努利分布随机变量,n为随机变量的个数。定义这组随机变量的均值为: 对于任意δ>...
  • u013656184
  • u013656184
  • 2015年12月04日 19:11
  • 9669

大数定律(4):Hoeffding界

上一篇博文介绍的切诺夫界在实际应用中会比较麻烦,因为随机变量E[esX]E[e^{sX}]的值通常很难求得,就算是求其上界,有时候也是一件难事。下面给出一个简洁但是非常实用的定理。定理6. 对于一族分...
  • hedan2013
  • hedan2013
  • 2017年08月21日 20:21
  • 167

常用概率不等式

常用概率不等式
  • zhoudi2010
  • zhoudi2010
  • 2016年12月09日 19:53
  • 576

霍夫丁不等式、马尔科夫不等式证明

马尔科夫不等式: http://blog.csdn.net/u010510549/article/details/47839241   霍夫丁不等式: http://blog.csdn.net...
  • hellochenlu
  • hellochenlu
  • 2017年10月08日 22:39
  • 716

集成学习-霍夫丁不等式

机器学习数学原理(8)——霍夫丁不等式 英文paper链接:http://download.csdn.net/detail/z_x_1996/9869678 霍夫丁不等式 霍夫丁不等式(Hoef...
  • liukai2918
  • liukai2918
  • 2018年01月15日 23:06
  • 89

Hoeffding不等式的证明

Hoeffding不等式证明
  • u010510549
  • u010510549
  • 2015年08月21日 19:34
  • 10411
    个人资料
    等级:
    访问量: 0
    积分: 24
    排名: 0
    文章分类
    文章存档
    最新评论