切比雪夫,霍夫丁不等式证明

Hoeffding’s Inequality,霍夫丁不等式

霍夫丁不等式 ( P ( ∣ v − μ ∣ ≥ ϵ ) ≤ 2 e − 2 n ϵ 2 \mathbb P(\Big|v -\mu\Big|\ge \epsilon ) \le 2e^{-2n\epsilon^2} P(vμϵ)2e2nϵ2) 的意义:

  • 当n 很大时,抽样的期望 v v v可以逼近样本本身的期望值 μ \mu μ(一般是未知),例如:
    n = 1000 n =1000 n=1000, 误 差 ϵ = 0.05 , 误差 \epsilon= 0.05, ϵ=0.05 μ − 0.05 ≤ v ≤ μ + 0.05 , P ( ∣ v − μ ∣ ≥ ϵ ) ≤ 2 e − 2 ∗ 1000 ∗ 0.0 5 2 = 0.013 \mu -0.05 \le v \le \mu+0.05,\mathbb P(|v-\mu|\ge\epsilon)\le2e^{-2*1000*0.05^2} = 0.013 μ0.05vμ+0.05,P(vμϵ)2e210000.052=0.013

    注意这里只是概率上说明 v v v μ \mu μ的误差关系,真实情况 v v v 的取值是随意的。所以霍夫丁不等式只是告诉我们在一定误差范围内,取得我们想要的 μ \mu μ的估计值 v v v的概率可能性,而不是一定。(关于误差的介绍以后会相继推出)

常用的不等式证明

σ \sigma σ μ \mu μ是样本本身的方差和均值, X X X是随机变量, ϵ \epsilon ϵ是任意整数。

E ( x ) = ∫ − ∞ ∞ ( x − μ ) f ( x ) d x = μ \mathbb E (x) = \int_{-\infty}^{\infty}(x-\mu)f(x)dx =\mu E(x)=(xμ)f(x)dx=μ

D ( x ) = ∫ − ∞ ∞ ( x − μ ) 2 f ( x ) d x = σ 2 \mathbb D (x) = \int_{-\infty}^{\infty}(x-\mu)^2f(x)dx = \sigma^2 D(x)=(xμ)2f(x)dx=σ2

  • 切比雪夫不等式为: P [ ∣ X − μ ∣ ≥ ϵ ] ≤ σ 2 ϵ 2 \Large \mathbb P [|X-\mu|\ge\epsilon] \le \Large \frac{\sigma^2}{\epsilon^2} P[Xμϵ]ϵ2σ2

  •   P [ ∣ X − μ ∣ ≥ ϵ ] = ∫ ∣ X − μ ∣ ≥ ϵ f ( X ) d X ≤ ∫ ∣ X − μ ∣ ≥ ϵ ∣ X − μ ∣ 2 ϵ 2 f ( X ) d X ≤ 1 ϵ 2 ∫ − ∞ ∞ ( X − μ ) 2 f ( X ) d X = σ 2 ϵ 2 \Large \ P [|X-\mu|\ge\epsilon] =\Large \int_{|X-\mu|\ge\epsilon}f(X)dX\le\int_{|X-\mu|\ge\epsilon}\frac{|X-\mu|^2}{\epsilon^2}f(X)dX \\ \Large \le\frac{1}{\epsilon^2}\int_{-\infty}^{\infty}(X-\mu)^2f(X)dX=\frac{\sigma^2}{\epsilon^2}  P[Xμϵ]=Xμϵf(X)dXXμϵϵ2Xμ2f(X)dXϵ21(Xμ)2f(X)dX=ϵ2σ2

引理 1

同理可以证明马尔科夫不等式 t t t为非负随机变量:

  P [ t ≥ α ] = ∫ t ≥ α f ( t ) d t ≤ ∫ t ≥ α t α f ( t ) d t ≤ 1 α ∫ 0 ∞ f ( t ) d t = E ( t ) α \Large \ P [t\ge\alpha] =\Large \int_{t\ge\alpha}f(t)dt\le\int_{t\ge\alpha}\frac{t}{\alpha}f(t)dt\le\frac{1}{\alpha}\int_{0}^{\infty}f(t)dt=\frac{E(t)}{\alpha}  P[tα]=tαf(t)dttααtf(t)dtα10f(t)dt=αE(t)

即:   P [ t ≥ α ] ≤ E ( t ) α \Large \ P [t\ge\alpha] \le \frac{E(t)}{\alpha}  P[tα]αE(t)

引理2[1]

X 1 , . . . , X n 是 独 立 同 分 布 的 随 机 变 量 , P ( X i = 1 ) = 1 2 + a , P ( X i = − 1 ) = 1 2 − a 那 么 P ( X ‾ − E [ X ‾ ] ≥ t ) ≤ e − n t 2 2 X_1,...,X_n是独立同分布的随机变量,\mathbb P(X_i=1)=\frac 1 2+a,\mathbb P(X_i=-1)=\frac 1 2-a\\那么\mathbb P(\overline X -\mathbb E[\overline X]\ge t )\le e^{-\frac{n t^2}{2}} X1,...,Xn,P(Xi=1)=21+a,P(Xi=1)=21aP(XE[X]t)e2nt2
可以看到这个结论和我们需要证明的结论形式非常类似,但是相对于原来的命题,这个结论更加“对称”一些,这是因为 − 1 , + 1 -1,+1 1,+1以及 1 2 + a , 1 2 − a \frac 1 2+a,\frac 1 2-a 21+a,21a都比较对称,后面证明中可以看到,这样的对称性可以使得证明更加方便,下面来证明这个结论。

证明:首先计算 E [ X i ] , E [ X ‾ ] \mathbb E[X_i],\mathbb E[\overline X] E[Xi],E[X]
E [ X i ] = ( 1 2 + a ) × 1 + ( 1 2 − a ) × ( − 1 ) = 2 a E [ X ‾ ] = E [ X i ] = 2 a \mathbb E[X_i]=(\frac 1 2+a)\times 1 +(\frac 1 2-a)\times(-1)=2a\\ \mathbb E[\overline X]=\mathbb E[X_i]=2a E[Xi]=(21+a)×1+(21a)×(1)=2aE[X]=E[Xi]=2a
所以原不等式可以转化为
P ( X ‾ − 2 a ≥ t ) ≤ e − n t 2 2 \mathbb P(\overline X -2a\ge t )\le e^{-\frac{n t^2}{2}} P(X2at)e2nt2
以及有如下等价关系
P ( X ‾ − 2 a ≥ t ) ≤ e − n t 2 2 ⇔ P ( ∑ i = 1 n X i ≥ n ( t + 2 a ) ) ≤ e − n t 2 2 ⇔ P ( e s ∑ i = 1 n X i ≥ e s n ( t + 2 a ) ) ≤ e − n t 2 2 ( s > 0 ) \mathbb P(\overline X -2a\ge t )\le e^{-\frac{n t^2}{2}}\Leftrightarrow \\ \mathbb P(\sum_{i=1}^nX_i \ge n(t+2a ))\le e^{-\frac{n t^2}{2}}\Leftrightarrow\\ \mathbb P(e^{s\sum_{i=1}^nX_i} \ge e^{sn(t+2a )})\le e^{-\frac{n t^2}{2}}(s>0) P(X2at)e2nt2P(i=1nXin(t+2a))e2nt2P(esi=1nXiesn(t+2a))e2nt2(s>0)
这里 s s s是任意正数,接下来使用引理1
P ( e s ∑ i = 1 n X i ≥ e s n ( t + 2 a ) ) ≤ E [ e s ∑ i = 1 n X i ] e s n ( t + 2 a ) \mathbb P(e^{s\sum_{i=1}^nX_i} \ge e^{sn(t+2a )})\le \frac{\mathbb E[e^{s\sum_{i=1}^nX_i}]}{e^{sn(t+2a )}} P(esi=1nXiesn(t+2a))esn(t+2a)E[esi=1nXi]
我们现在对 E [ e s ∑ i = 1 n X i ] e s n ( t + 2 a ) \frac{\mathbb E[e^{s\sum_{i=1}^nX_i}]}{e^{sn(t+2a )}} esn(t+2a)E[esi=1nXi]进行处理,注意 X 1 , . . . , X n X_1,...,X_n X1,...,Xn独立同分布
E [ e s ∑ i = 1 n X i ] e s n ( t + 2 a ) = 1 e s n t × ( E [ e s X 1 ] ) n e 2 a s n = 1 e s n t × ( E [ e s X 1 ] e 2 a s ) n \frac{\mathbb E[e^{s\sum_{i=1}^nX_i}]}{e^{sn(t+2a )}}=\frac{1}{e^{snt}}\times \frac{(\mathbb E[e^{sX_1}])^n}{e^{2asn }} =\frac{1}{e^{snt}}\times (\frac{\mathbb E[e^{sX_1}]}{e^{2as }})^n esn(t+2a)E[esi=1nXi]=esnt1×e2asn(E[esX1])n=esnt1×(e2asE[esX1])n
接下来我们处理 E [ e s X 1 ] e 2 a s \frac{\mathbb E[e^{sX_1}]}{e^{2as }} e2asE[esX1],利用 P ( X i = 1 ) = 1 2 + a , P ( X i = − 1 ) = 1 2 − a \mathbb P(X_i=1)=\frac 1 2+a,\mathbb P(X_i=-1)=\frac 1 2-a P(Xi=1)=21+a,P(Xi=1)=21a
E [ e s X 1 ] e 2 a s = e s ( 1 2 + a ) + e − s ( 1 2 − a ) e 2 a s = 1 2 ( e s + e − s ) + a ( e s − e − s ) e 2 a s \frac{\mathbb E[e^{sX_1}]}{e^{2as }}=\frac{e^s(\frac 1 2+a)+e^{-s}(\frac 1 2-a)}{e^{2as}}=\frac{\frac12(e^s+e^{-s})+a(e^{s}-e^{-s})}{e^{2as}} e2asE[esX1]=e2ases(21+a)+es(21a)=e2as21(es+es)+a(eses)
m = 1 2 ( e s + e − s ) , n = e s − e − s m=\frac12(e^s+e^{-s}),n=e^{s}-e^{-s} m=21(es+es),n=eses,所以上式可以改写为
f ( a ) = m + n a e 2 a s f(a)=\frac{m+na}{e^{2as}} f(a)=e2asm+na
对其取对数可得
g ( a ) = ln f ( a ) = ln ( m + n a ) − 2 a s g(a)=\text{ln}f(a)=\text{ln}(m+na)-2as g(a)=lnf(a)=ln(m+na)2as
研究 f ( a ) f(a) f(a)的极值只要研究 g ( a ) g(a) g(a)的极值即可
g ′ ( a ) = n m + n a − 2 s = 0 a = n − 2 m s 2 n s g ′ ′ ( a ) = − n 2 m + n a &lt; 0 g^{&#x27;}(a)=\frac{n}{m+na}-2s=0\\ a=\frac{n-2ms}{2ns}\\ g^{&#x27;&#x27;}(a)=-\frac{n^2}{m+na}&lt;0 g(a)=m+nan2s=0a=2nsn2msg(a)=m+nan2<0
所以当 a = n − 2 m s 2 n s a=\frac{n-2ms}{2ns} a=2nsn2ms时, g ( a ) g(a) g(a)取极大值,并且 a ≤ n − 2 m s 2 n s a\le \frac{n-2ms}{2ns} a2nsn2ms时单调递增, a &gt; n − 2 m s 2 n s a&gt;\frac{n-2ms}{2ns} a>2nsn2ms时单调递减,但是注意这里的 a ∈ [ 0 , 1 2 ] a\in [0,\frac 1 2] a[0,21],所以还要看 n − 2 m s 2 n s \frac{n-2ms}{2ns} 2nsn2ms [ 0 , 1 2 ] [0,\frac 12 ] [0,21]的关系,我们先判断 n − 2 m s 2 n s \frac{n-2ms}{2ns} 2nsn2ms是否大于 0 0 0,因为 s &gt; 0 s&gt;0 s>0,所以分母 2 n s = 2 s ( e s − e − s ) &gt; 0 2ns=2s(e^s-e^{-s})&gt;0 2ns=2s(eses)>0,只要考虑分子即可
h ( s ) = n − 2 m s = e s − e − s − s ( e s + e − s ) h ′ ( s ) = e s + e − s − ( e s + e − s ) − s ( e s − e − s ) = − s ( e s − e − s ) &lt; 0 h ( s ) = n − 2 m s &lt; h ( 0 ) = 0 h(s)=n-2ms=e^s-e^{-s}-s(e^s+e^{-s})\\ h^{&#x27;}(s)=e^s+e^{-s}-(e^s+e^{-s})-s(e^s-e^{-s})=-s(e^s-e^{-s})&lt;0\\ h(s)=n-2ms&lt;h(0)=0 h(s)=n2ms=esess(es+es)h(s)=es+es(es+es)s(eses)=s(eses)<0h(s)=n2ms<h(0)=0
所以 n − 2 m s 2 n s &lt; 0 \frac{n-2ms}{2ns}&lt;0 2nsn2ms<0,从而 g ( a ) g(a) g(a) [ 0 , 1 2 ] [0,\frac 1 2] [0,21]上单调递减,因此
g ( a ) ≤ g ( 0 ) f ( a ) ≤ f ( 0 ) = m = 1 2 ( e s + e − s ) g(a)\le g(0)\\ f(a)\le f(0) = m=\frac12(e^s+e^{-s}) g(a)g(0)f(a)f(0)=m=21(es+es)
所以现在只要处理 1 2 ( e s + e − s ) \frac12(e^s+e^{-s}) 21(es+es)即可,对 e s , e − s e^s,e^{-s} es,es分别使用泰勒展开
e s = ∑ i = 0 + ∞ s i i ! , e − s = ∑ i = 0 + ∞ ( − s ) i i ! 1 2 ( e s + e − s ) = 1 2 ∑ i = 0 + ∞ ( 1 + ( − 1 ) i ) i ! s i = ∑ k = 0 + ∞ s 2 k ( 2 k ) ! e^s=\sum_{i=0}^{+\infty} \frac{s^i}{i!},e^{-s}=\sum_{i=0}^{+\infty} \frac{(-s)^i}{i!}\\ \frac12(e^s+e^{-s})=\frac 1 2 \sum_{i=0}^{+\infty}\frac {(1+(-1)^i)}{i!}s^i=\sum_{k=0}^{+\infty}\frac {s^{2k}}{(2k)!} es=i=0+i!si,es=i=0+i!(s)i21(es+es)=21i=0+i!(1+(1)i)si=k=0+(2k)!s2k
( 2 k ) ! (2k)! (2k)!稍作变形
( 2 k ) ! = 1 × 2 × . . . × k × ( k + 1 ) × . . . × 2 k ≥ k ! × 2 × . . . × 2 ⎵ k 个 2 = 2 k k ! (2k)!=1\times 2\times...\times k\times (k+1)\times ...\times 2k\ge k!\times\underbrace {2 \times...\times 2}_{k个2}=2^kk! (2k)!=1×2×...×k×(k+1)×...×2kk!×k2 2×...×2=2kk!
将这个式子带入原式可得
1 2 ( e s + e − s ) = ∑ k = 0 + ∞ s 2 k ( 2 k ) ! ≤ ∑ k = 0 + ∞ ( s 2 ) k k ! 2 k = ∑ k = 0 + ∞ ( s 2 2 ) k k ! = e s 2 2 \frac12(e^s+e^{-s})=\sum_{k=0}^{+\infty}\frac {s^{2k}}{(2k)!}\le \sum_{k=0}^{+\infty}\frac {(s^{2})^k}{k!2^k} = \sum_{k=0}^{+\infty}\frac {(\frac{s^{2}}{2})^k}{k!}=e^{\frac{s^2}{2}} 21(es+es)=k=0+(2k)!s2kk=0+k!2k(s2)k=k=0+k!(2s2)k=e2s2
把以上几点结合起来可以得到
E [ e s X 1 ] e 2 a s ≤ e s 2 2 E [ e s ∑ i = 1 n X i ] e s n ( t + 2 a ) = 1 e s n t × ( E [ e s X 1 ] e 2 a s ) n ≤ 1 e s n t × e n s 2 2 = ( e s 2 2 − s t ) n \frac{\mathbb E[e^{sX_1}]}{e^{2as }}\le e^{\frac{s^2}{2}}\\ \frac{\mathbb E[e^{s\sum_{i=1}^nX_i}]}{e^{sn(t+2a )}}=\frac{1}{e^{snt}}\times (\frac{\mathbb E[e^{sX_1}]}{e^{2as }})^n \le \frac{1}{e^{snt}}\times e^{\frac{ns^2}{2}}=(e^{\frac {s^2}2-st})^n e2asE[esX1]e2s2esn(t+2a)E[esi=1nXi]=esnt1×(e2asE[esX1])nesnt1×e2ns2=(e2s2st)n
由于 s s s为任意大于 0 0 0的数,取 s = t s=t s=t,从而
E [ e s ∑ i = 1 n X i ] e s n ( t + 2 a ) ≤ ( e − t 2 2 ) n = e − n t 2 2 P ( X ‾ − E [ X ‾ ] ≥ t ) = P ( e s ∑ i = 1 n X i ≥ e s n ( t + 2 a ) ) ≤ E [ e s ∑ i = 1 n X i ] e s n ( t + 2 a ) ≤ e − n t 2 2 \frac{\mathbb E[e^{s\sum_{i=1}^nX_i}]}{e^{sn(t+2a )}}\le(e^{-\frac {t^2}2})^n=e^{\frac{-nt^2}{2}}\\ \mathbb P(\overline X -\mathbb E[\overline X]\ge t )=\mathbb P(e^{s\sum_{i=1}^nX_i} \ge e^{sn(t+2a )})\le \frac{\mathbb E[e^{s\sum_{i=1}^nX_i}]}{e^{sn(t+2a )}}\le e^{-\frac{n t^2}{2}} esn(t+2a)E[esi=1nXi](e2t2)n=e2nt2P(XE[X]t)=P(esi=1nXiesn(t+2a))esn(t+2a)E[esi=1nXi]e2nt2
所以结论得证。这里再补充一点,我们还有以下对称的结论
P ( X ‾ − E [ X ‾ ] ≤ − t ) ≤ e − n t 2 2 \mathbb P(\overline X -\mathbb E[\overline X]\le -t )\le e^{-\frac{n t^2}{2}} P(XE[X]t)e2nt2
这是因为
P ( X ‾ − E [ X ‾ ] ≤ − t ) = P ( − X ‾ − E [ − X ‾ ] ≥ t ) \mathbb P(\overline X -\mathbb E[\overline X]\le -t )=\mathbb P(-\overline X -\mathbb E[-\overline X]\ge t ) P(XE[X]t)=P(XE[X]t)
因为 P ( X i = 1 ) = 1 2 + a , P ( X i = − 1 ) = 1 2 − a \mathbb P(X_i=1)=\frac 1 2+a,\mathbb P(X_i=-1)=\frac 1 2-a P(Xi=1)=21+a,P(Xi=1)=21a,所以 − X i -X_i Xi也是形式一致的随机变量,由引理2可知
P ( X ‾ − E [ X ‾ ] ≤ − t ) = P ( − X ‾ − E [ − X ‾ ] ≥ t ) ≤ e − n t 2 2 \mathbb P(\overline X -E[\overline X]\le -t )=\mathbb P(-\overline X -E[-\overline X]\ge t )\le e^{-\frac{n t^2}{2}} P(XE[X]t)=P(XE[X]t)e2nt2
把以上两者结合有以下推论
P ( ∣ X ‾ − E [ X ‾ ] ∣ ≥ t ) = P ( X ‾ − E [ X ‾ ] ≤ − t ) + P ( X ‾ − E [ X ‾ ] ≥ t ) ≤ 2 e − n t 2 2 \mathbb P(\Big|\overline X -\mathbb E[\overline X]\Big| \ge t )=\mathbb P(\overline X -\mathbb E[\overline X]\le -t )+\mathbb P(\overline X -\mathbb E[\overline X]\ge t )\le 2e^{-\frac{n t^2}{2}} P(XE[X]t)=P(XE[X]t)+P(XE[X]t)2e2nt2

最后就利用上述引理2及其推论证明Hoeffding不等式

Hoeffding不等式的证明

Hoeffding不等式中的随机变量 X 1 , . . . , X n X_1,...,X_n X1,...,Xn满足 P ( X i = 1 ) = p , P ( X i = 0 ) = 1 − p \mathbb P(X_i=1)=p,\mathbb P(X_i=0)=1-p P(Xi=1)=p,P(Xi=0)=1p,对其稍作变形,转化为引理2的形式
Y i = 2 X i − 1 P ( Y i = 1 ) = p , P ( Y i = − 1 ) = 1 − p Y_i=2X_i-1\\ \mathbb P(Y_i=1)=p,\mathbb P(Y_i=-1)=1-p Yi=2Xi1P(Yi=1)=p,P(Yi=1)=1p
从而
Y ‾ = 2 X ‾ − 1 , E [ Y ‾ ] = 2 E [ X ‾ ] − 1 \overline Y= 2\overline X-1,\mathbb E[\overline Y]= 2\mathbb E[\overline X]-1 Y=2X1,E[Y]=2E[X]1
所以
P ( ∣ X ‾ − E [ X ‾ ] ∣ ≥ t ) = P ( ∣ 2 X ‾ − 2 E [ X ‾ ] ∣ ≥ 2 t ) = P ( ∣ 2 X ‾ − 1 − ( 2 E [ X ‾ ] − 1 ) ∣ ≥ 2 t ) = P ( ∣ Y ‾ − E [ Y ‾ ] ∣ ≥ 2 t ) \begin{aligned} \mathbb P(\Big|\overline X -\mathbb E[\overline X]\Big|\ge t ) &amp;=\mathbb P(\Big|2\overline X -2\mathbb E[\overline X]\Big|\ge 2t )\\ &amp;=\mathbb P(\Big|2\overline X-1 -(2\mathbb E[\overline X]-1)\Big|\ge2t )\\ &amp;=\mathbb P(\Big|\overline Y -\mathbb E[\overline Y]\Big|\ge2t ) \end{aligned} P(XE[X]t)=P(2X2E[X]2t)=P(2X1(2E[X]1)2t)=P(YE[Y]2t)
由引理2的推论可知可知
P ( ∣ Y ‾ − E [ Y ‾ ] ∣ ≥ 2 t ) ≤ 2 e − n ( 2 t ) 2 2 = 2 e − 2 n t 2 \mathbb P(\Big|\overline Y -\mathbb E[\overline Y]\Big|\ge2t )\le 2e^{-\frac{n (2t)^2}{2}}=2e^{-2nt^2} P(YE[Y]2t)2e2n(2t)2=2e2nt2
从而
P ( ∣ X ‾ − E [ X ‾ ] ∣ ≥ t ) = P ( ∣ Y ‾ − E [ Y ‾ ] ∣ ≥ 2 t ) ≤ 2 e − 2 n t 2 \mathbb P(\Big|\overline X -\mathbb E[\overline X]\Big|\ge t ) =\mathbb P(\Big|\overline Y -\mathbb E[\overline Y]\Big|\ge 2t )\le 2e^{-2nt^2} P(XE[X]t)=P(YE[Y]2t)2e2nt2
从而结论得证。

[1] 霍夫丁不等式证明 https://github.com/Doraemonzzz/Learning-from-data/tree/master/Chapter1/md

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值