xhhszc的博客

一棵杂草的学习空间

Hoeffding霍夫丁不等式及其在集成学习理论的应用

Hoeffding霍夫丁不等式

机器学习中,算法的泛化能力往往是通过研究泛化误差的概率上界所进行的,这个就称为泛化误差上界。直观的说,在有限的训练数据中得到的规律,则认为真实的总体数据中也是近似这个规律的。比如一个大罐子里装满了红球和白球,各一半,我随手抓了一把,然后根据这些红球白球的比例预测整个罐子也是这样的比例,这样做不一定很准确,但结果总是近似的,而且如果抓出的球越多,预测结果也就越可信。

对于两种不同的学习方法,通常比较他们的误差上界来决定他们的优劣。hoeffding不等式于1963年被Wassily Hoeffding提出并证明,用于计算随机变量的和与其期望值偏差的概率上限。下面我们理清hoeffding 不等式的来龙去脉。

1.伯努利随机变量的特例

我们假定一个硬币A面朝上的概率为p,则B面朝上的概率为1p。抛n次硬币,A面朝上次数的期望值为np。则A面朝上的次数不超过k次的概率为:

(237)P(H(n)k)=i=0kCnipi(1p)ni=i=0kn!i!(ni)!pi(1p)ni

其中H(n)为抛n次硬币A面朝上的次数。

对某一ε>0k=(pε)n时,有Hoeffding不等式

(238)P(H(n)(pε)n)e2ε2n

对应的,当k=(p+ε)n时,
(239)P(H(n)(p+ε)n)e2ε2n

由此我们可以推导出
(240)P((pε)nH(n)(p+ε)n)12e2ε2n

特别的,当ε=lnnn时,
(241)P(|H(n)pn|nlnn)12e2lnn=12n2

2.伯努利随机变量的一般情况

令独立同分布随机变量X1,X2,...,Xn,其中Xi[ai,bi],则这些变量的经验均值为:X¯=X1+X2+,...,+Xnn
对于任意t>0

(898)P(|X¯E(X¯)|t)2e2n2t2i=1n(biai)2

Sn=X1+X2+,...,+Xn
(899)P(|SnE(Sn)|t)2e2t2i=1n(biai)2

证明如下:
霍夫丁引理:假设X为均值为0的随机变量且满足P(X[a,b])=1,有以下不等式成立:

E(esX)es2(ba)28

则对于独立随机变量X1,X2,...,Xn满足P(Xi[ai,bi])=1,对于t>0
P(SnE(Sn)t)=P(es(SnE(Sn))est)estE(es(SnE(Sn)))=esti=1nE(es(XiE(Xi)))esti=1nE(es2(biai)28)=exp(st+0.125s2i=1n(biai)2)

g(s)=st+0.125s2i=1n(biai)2,则g(s)为二次函数,当s=4ti=1n(biai)2时函数获得最小值。因此:
P(SnE(Sn)t)e2t2i=1n(biai)2

3.集成学习的错误率上界

类似于抛硬币的例子,对于集成学习中基学习器的错误率ϵ,

(1168)P(H(n)k)=i=0kCni(1ϵ)iϵni

表示n个基学习器中分类正确的个数小于k的概率。若假定集成通过简单投票法结合n个分类器,超过半数的基学习器正确,则集成分类就正确,即k=n/2=(1ϵε)n
P()=P(H(n)n2)=i=0n2Cni(1ϵ)iϵniexp(n2(12ϵ2))(ε=12ϵ)

其中,ε=12ϵ>0,也就是说,当错误率ε<0.5时,随着集成中基学习器的数目n的增大,集成的错误率将指数级下降,最终趋向于0。而当错误率ε0.5时,以上式子不成立。


参考文章:

机器学习数学原理(8)——霍夫丁不等式
Hoeffding不等式的认识以及泛化误差上界的证明

阅读更多
个人分类: 机器学习
下一篇高斯混合聚类
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭