Hoeffding霍夫丁不等式
机器学习中,算法的泛化能力往往是通过研究泛化误差的概率上界所进行的,这个就称为泛化误差上界。直观的说,在有限的训练数据中得到的规律,则认为真实的总体数据中也是近似这个规律的。比如一个大罐子里装满了红球和白球,各一半,我随手抓了一把,然后根据这些红球白球的比例预测整个罐子也是这样的比例,这样做不一定很准确,但结果总是近似的,而且如果抓出的球越多,预测结果也就越可信。
对于两种不同的学习方法,通常比较他们的误差上界来决定他们的优劣。hoeffding不等式于1963年被Wassily Hoeffding提出并证明,用于计算随机变量的和与其期望值偏差的概率上限。下面我们理清hoeffding 不等式的来龙去脉。
1.伯努利随机变量的特例
我们假定一个硬币A面朝上的概率为 p p ,则B面朝上的概率为
。抛n次硬币,A面朝上次数的期望值为 n∗p n ∗ p 。则A面朝上的次数不超过k次的概率为:
P(H(n)≤k)=∑i=0kCinpi(1−p)n−i=∑i=0kn!i!(n−i)!pi(1−p)n−i(237) (237) P ( H ( n ) ≤ k ) = ∑ i = 0 k C n i p i ( 1 − p ) n − i = ∑ i = 0 k n ! i ! ( n − i ) ! p i ( 1 − p ) n − i
其中 H(n) H ( n ) 为抛n次硬币A面朝上的次数。
对某一 ε>0 ε > 0 当 k=(p−ε)n k = ( p − ε ) n 时,有Hoeffding不等式
P(H(n)≤(p−ε)n)≤e−2ε2n(238) (238) P ( H ( n ) ≤ ( p − ε ) n ) ≤ e − 2 ε 2 n
对应的,当 k=(p+ε)n k = ( p + ε ) n 时,
P(H(n)≥(p+ε)n)≤e−2ε2n(239) (239) P ( H ( n ) ≥ ( p + ε ) n ) ≤ e − 2 ε 2 n
由此我们可以推导出
P((p−ε)n≤H(n)≤(p+ε)n)≥1−2e−2ε2n(240)