Hoeffding’s Inequality,霍夫丁不等式
霍夫丁不等式 ( P ( ∣ v − μ ∣ ≥ ϵ ) ≤ 2 e − 2 n ϵ 2 \mathbb P(\Big|v -\mu\Big|\ge \epsilon ) \le 2e^{-2n\epsilon^2} P(∣∣∣v−μ∣∣∣≥ϵ)≤2e−2nϵ2) 的意义:
-
当n 很大时,抽样的期望 v v v可以逼近样本本身的期望值 μ \mu μ(一般是未知),例如:
n = 1000 n =1000 n=1000, 误 差 ϵ = 0.05 , 误差 \epsilon= 0.05, 误差ϵ=0.05, μ − 0.05 ≤ v ≤ μ + 0.05 , P ( ∣ v − μ ∣ ≥ ϵ ) ≤ 2 e − 2 ∗ 1000 ∗ 0.0 5 2 = 0.013 \mu -0.05 \le v \le \mu+0.05,\mathbb P(|v-\mu|\ge\epsilon)\le2e^{-2*1000*0.05^2} = 0.013 μ−0.05≤v≤μ+0.05,P(∣v−μ∣≥ϵ)≤2e−2∗1000∗0.052=0.013注意这里只是概率上说明 v v v 和 μ \mu μ的误差关系,真实情况 v v v 的取值是随意的。所以霍夫丁不等式只是告诉我们在一定误差范围内,取得我们想要的 μ \mu μ的估计值 v v v的概率可能性,而不是一定。(关于误差的介绍以后会相继推出)
常用的不等式证明
σ \sigma σ和 μ \mu μ是样本本身的方差和均值, X X X是随机变量, ϵ \epsilon ϵ是任意整数。
E ( x ) = ∫ − ∞ ∞ ( x − μ ) f ( x ) d x = μ \mathbb E (x) = \int_{-\infty}^{\infty}(x-\mu)f(x)dx =\mu E(x)=∫−∞∞(x−μ)f(x)dx=μ
D ( x ) = ∫ − ∞ ∞ ( x − μ ) 2 f ( x ) d x = σ 2 \mathbb D (x) = \int_{-\infty}^{\infty}(x-\mu)^2f(x)dx = \sigma^2 D(x)=∫−∞∞(x−μ)2f(x)dx=σ2
-
切比雪夫不等式为: P [ ∣ X − μ ∣ ≥ ϵ ] ≤ σ 2 ϵ 2 \Large \mathbb P [|X-\mu|\ge\epsilon] \le \Large \frac{\sigma^2}{\epsilon^2} P[∣X−μ∣≥ϵ]≤ϵ2σ2
-
P [ ∣ X − μ ∣ ≥ ϵ ] = ∫ ∣ X − μ ∣ ≥ ϵ f ( X ) d X ≤ ∫ ∣ X − μ ∣ ≥ ϵ ∣ X − μ ∣ 2 ϵ 2 f ( X ) d X ≤ 1 ϵ 2 ∫ − ∞ ∞ ( X − μ ) 2 f ( X ) d X = σ 2 ϵ 2 \Large \ P [|X-\mu|\ge\epsilon] =\Large \int_{|X-\mu|\ge\epsilon}f(X)dX\le\int_{|X-\mu|\ge\epsilon}\frac{|X-\mu|^2}{\epsilon^2}f(X)dX \\ \Large \le\frac{1}{\epsilon^2}\int_{-\infty}^{\infty}(X-\mu)^2f(X)dX=\frac{\sigma^2}{\epsilon^2} P[∣X−μ∣≥ϵ]=∫∣X−μ∣≥ϵf(X)dX≤∫∣X−μ∣≥ϵϵ2∣X−μ∣2f(X)dX≤ϵ21∫−∞∞(X−μ)2f(X)dX=ϵ2σ2
引理 1
同理可以证明马尔科夫不等式, t t t为非负随机变量:
P [ t ≥ α ] = ∫ t ≥ α f ( t ) d t ≤ ∫ t ≥ α t α f ( t ) d t ≤ 1 α ∫ 0 ∞ f ( t ) d t = E ( t ) α \Large \ P [t\ge\alpha] =\Large \int_{t\ge\alpha}f(t)dt\le\int_{t\ge\alpha}\frac{t}{\alpha}f(t)dt\le\frac{1}{\alpha}\int_{0}^{\infty}f(t)dt=\frac{E(t)}{\alpha} P[t≥α]=∫t≥αf(t)dt≤∫t≥ααtf(t)dt≤α1∫0∞f(t)dt=αE(t)
即: P [ t ≥ α ] ≤ E ( t ) α \Large \ P [t\ge\alpha] \le \frac{E(t)}{\alpha} P[t≥α]≤αE(t)
引理2[1]
X
1
,
.
.
.
,
X
n
是
独
立
同
分
布
的
随
机
变
量
,
P
(
X
i
=
1
)
=
1
2
+
a
,
P
(
X
i
=
−
1
)
=
1
2
−
a
那
么
P
(
X
‾
−
E
[
X
‾
]
≥
t
)
≤
e
−
n
t
2
2
X_1,...,X_n是独立同分布的随机变量,\mathbb P(X_i=1)=\frac 1 2+a,\mathbb P(X_i=-1)=\frac 1 2-a\\那么\mathbb P(\overline X -\mathbb E[\overline X]\ge t )\le e^{-\frac{n t^2}{2}}
X1,...,Xn是独立同分布的随机变量,P(Xi=1)=21+a,P(Xi=−1)=21−a那么P(X−E[X]≥t)≤e−2nt2
可以看到这个结论和我们需要证明的结论形式非常类似,但是相对于原来的命题,这个结论更加“对称”一些,这是因为
−
1
,
+
1
-1,+1
−1,+1以及
1
2
+
a
,
1
2
−
a
\frac 1 2+a,\frac 1 2-a
21+a,21−a都比较对称,后面证明中可以看到,这样的对称性可以使得证明更加方便,下面来证明这个结论。
证明:首先计算
E
[
X
i
]
,
E
[
X
‾
]
\mathbb E[X_i],\mathbb E[\overline X]
E[Xi],E[X]
E
[
X
i
]
=
(
1
2
+
a
)
×
1
+
(
1
2
−
a
)
×
(
−
1
)
=
2
a
E
[
X
‾
]
=
E
[
X
i
]
=
2
a
\mathbb E[X_i]=(\frac 1 2+a)\times 1 +(\frac 1 2-a)\times(-1)=2a\\ \mathbb E[\overline X]=\mathbb E[X_i]=2a
E[Xi]=(21+a)×1+(21−a)×(−1)=2aE[X]=E[Xi]=2a
所以原不等式可以转化为
P
(
X
‾
−
2
a
≥
t
)
≤
e
−
n
t
2
2
\mathbb P(\overline X -2a\ge t )\le e^{-\frac{n t^2}{2}}
P(X−2a≥t)≤e−2nt2
以及有如下等价关系
P
(
X
‾
−
2
a
≥
t
)
≤
e
−
n
t
2
2
⇔
P
(
∑
i
=
1
n
X
i
≥
n
(
t
+
2
a
)
)
≤
e
−
n
t
2
2
⇔
P
(
e
s
∑
i
=
1
n
X
i
≥
e
s
n
(
t
+
2
a
)
)
≤
e
−
n
t
2
2
(
s
>
0
)
\mathbb P(\overline X -2a\ge t )\le e^{-\frac{n t^2}{2}}\Leftrightarrow \\ \mathbb P(\sum_{i=1}^nX_i \ge n(t+2a ))\le e^{-\frac{n t^2}{2}}\Leftrightarrow\\ \mathbb P(e^{s\sum_{i=1}^nX_i} \ge e^{sn(t+2a )})\le e^{-\frac{n t^2}{2}}(s>0)
P(X−2a≥t)≤e−2nt2⇔P(i=1∑nXi≥n(t+2a))≤e−2nt2⇔P(es∑i=1nXi≥esn(t+2a))≤e−2nt2(s>0)
这里
s
s
s是任意正数,接下来使用引理1
P
(
e
s
∑
i
=
1
n
X
i
≥
e
s
n
(
t
+
2
a
)
)
≤
E
[
e
s
∑
i
=
1
n
X
i
]
e
s
n
(
t
+
2
a
)
\mathbb P(e^{s\sum_{i=1}^nX_i} \ge e^{sn(t+2a )})\le \frac{\mathbb E[e^{s\sum_{i=1}^nX_i}]}{e^{sn(t+2a )}}
P(es∑i=1nXi≥esn(t+2a))≤esn(t+2a)E[es∑i=1nXi]
我们现在对
E
[
e
s
∑
i
=
1
n
X
i
]
e
s
n
(
t
+
2
a
)
\frac{\mathbb E[e^{s\sum_{i=1}^nX_i}]}{e^{sn(t+2a )}}
esn(t+2a)E[es∑i=1nXi]进行处理,注意
X
1
,
.
.
.
,
X
n
X_1,...,X_n
X1,...,Xn独立同分布
E
[
e
s
∑
i
=
1
n
X
i
]
e
s
n
(
t
+
2
a
)
=
1
e
s
n
t
×
(
E
[
e
s
X
1
]
)
n
e
2
a
s
n
=
1
e
s
n
t
×
(
E
[
e
s
X
1
]
e
2
a
s
)
n
\frac{\mathbb E[e^{s\sum_{i=1}^nX_i}]}{e^{sn(t+2a )}}=\frac{1}{e^{snt}}\times \frac{(\mathbb E[e^{sX_1}])^n}{e^{2asn }} =\frac{1}{e^{snt}}\times (\frac{\mathbb E[e^{sX_1}]}{e^{2as }})^n
esn(t+2a)E[es∑i=1nXi]=esnt1×e2asn(E[esX1])n=esnt1×(e2asE[esX1])n
接下来我们处理
E
[
e
s
X
1
]
e
2
a
s
\frac{\mathbb E[e^{sX_1}]}{e^{2as }}
e2asE[esX1],利用
P
(
X
i
=
1
)
=
1
2
+
a
,
P
(
X
i
=
−
1
)
=
1
2
−
a
\mathbb P(X_i=1)=\frac 1 2+a,\mathbb P(X_i=-1)=\frac 1 2-a
P(Xi=1)=21+a,P(Xi=−1)=21−a
E
[
e
s
X
1
]
e
2
a
s
=
e
s
(
1
2
+
a
)
+
e
−
s
(
1
2
−
a
)
e
2
a
s
=
1
2
(
e
s
+
e
−
s
)
+
a
(
e
s
−
e
−
s
)
e
2
a
s
\frac{\mathbb E[e^{sX_1}]}{e^{2as }}=\frac{e^s(\frac 1 2+a)+e^{-s}(\frac 1 2-a)}{e^{2as}}=\frac{\frac12(e^s+e^{-s})+a(e^{s}-e^{-s})}{e^{2as}}
e2asE[esX1]=e2ases(21+a)+e−s(21−a)=e2as21(es+e−s)+a(es−e−s)
记
m
=
1
2
(
e
s
+
e
−
s
)
,
n
=
e
s
−
e
−
s
m=\frac12(e^s+e^{-s}),n=e^{s}-e^{-s}
m=21(es+e−s),n=es−e−s,所以上式可以改写为
f
(
a
)
=
m
+
n
a
e
2
a
s
f(a)=\frac{m+na}{e^{2as}}
f(a)=e2asm+na
对其取对数可得
g
(
a
)
=
ln
f
(
a
)
=
ln
(
m
+
n
a
)
−
2
a
s
g(a)=\text{ln}f(a)=\text{ln}(m+na)-2as
g(a)=lnf(a)=ln(m+na)−2as
研究
f
(
a
)
f(a)
f(a)的极值只要研究
g
(
a
)
g(a)
g(a)的极值即可
g
′
(
a
)
=
n
m
+
n
a
−
2
s
=
0
a
=
n
−
2
m
s
2
n
s
g
′
′
(
a
)
=
−
n
2
m
+
n
a
<
0
g^{'}(a)=\frac{n}{m+na}-2s=0\\ a=\frac{n-2ms}{2ns}\\ g^{''}(a)=-\frac{n^2}{m+na}<0
g′(a)=m+nan−2s=0a=2nsn−2msg′′(a)=−m+nan2<0
所以当
a
=
n
−
2
m
s
2
n
s
a=\frac{n-2ms}{2ns}
a=2nsn−2ms时,
g
(
a
)
g(a)
g(a)取极大值,并且
a
≤
n
−
2
m
s
2
n
s
a\le \frac{n-2ms}{2ns}
a≤2nsn−2ms时单调递增,
a
>
n
−
2
m
s
2
n
s
a>\frac{n-2ms}{2ns}
a>2nsn−2ms时单调递减,但是注意这里的
a
∈
[
0
,
1
2
]
a\in [0,\frac 1 2]
a∈[0,21],所以还要看
n
−
2
m
s
2
n
s
\frac{n-2ms}{2ns}
2nsn−2ms与
[
0
,
1
2
]
[0,\frac 12 ]
[0,21]的关系,我们先判断
n
−
2
m
s
2
n
s
\frac{n-2ms}{2ns}
2nsn−2ms是否大于
0
0
0,因为
s
>
0
s>0
s>0,所以分母
2
n
s
=
2
s
(
e
s
−
e
−
s
)
>
0
2ns=2s(e^s-e^{-s})>0
2ns=2s(es−e−s)>0,只要考虑分子即可
h
(
s
)
=
n
−
2
m
s
=
e
s
−
e
−
s
−
s
(
e
s
+
e
−
s
)
h
′
(
s
)
=
e
s
+
e
−
s
−
(
e
s
+
e
−
s
)
−
s
(
e
s
−
e
−
s
)
=
−
s
(
e
s
−
e
−
s
)
<
0
h
(
s
)
=
n
−
2
m
s
<
h
(
0
)
=
0
h(s)=n-2ms=e^s-e^{-s}-s(e^s+e^{-s})\\ h^{'}(s)=e^s+e^{-s}-(e^s+e^{-s})-s(e^s-e^{-s})=-s(e^s-e^{-s})<0\\ h(s)=n-2ms<h(0)=0
h(s)=n−2ms=es−e−s−s(es+e−s)h′(s)=es+e−s−(es+e−s)−s(es−e−s)=−s(es−e−s)<0h(s)=n−2ms<h(0)=0
所以
n
−
2
m
s
2
n
s
<
0
\frac{n-2ms}{2ns}<0
2nsn−2ms<0,从而
g
(
a
)
g(a)
g(a)在
[
0
,
1
2
]
[0,\frac 1 2]
[0,21]上单调递减,因此
g
(
a
)
≤
g
(
0
)
f
(
a
)
≤
f
(
0
)
=
m
=
1
2
(
e
s
+
e
−
s
)
g(a)\le g(0)\\ f(a)\le f(0) = m=\frac12(e^s+e^{-s})
g(a)≤g(0)f(a)≤f(0)=m=21(es+e−s)
所以现在只要处理
1
2
(
e
s
+
e
−
s
)
\frac12(e^s+e^{-s})
21(es+e−s)即可,对
e
s
,
e
−
s
e^s,e^{-s}
es,e−s分别使用泰勒展开
e
s
=
∑
i
=
0
+
∞
s
i
i
!
,
e
−
s
=
∑
i
=
0
+
∞
(
−
s
)
i
i
!
1
2
(
e
s
+
e
−
s
)
=
1
2
∑
i
=
0
+
∞
(
1
+
(
−
1
)
i
)
i
!
s
i
=
∑
k
=
0
+
∞
s
2
k
(
2
k
)
!
e^s=\sum_{i=0}^{+\infty} \frac{s^i}{i!},e^{-s}=\sum_{i=0}^{+\infty} \frac{(-s)^i}{i!}\\ \frac12(e^s+e^{-s})=\frac 1 2 \sum_{i=0}^{+\infty}\frac {(1+(-1)^i)}{i!}s^i=\sum_{k=0}^{+\infty}\frac {s^{2k}}{(2k)!}
es=i=0∑+∞i!si,e−s=i=0∑+∞i!(−s)i21(es+e−s)=21i=0∑+∞i!(1+(−1)i)si=k=0∑+∞(2k)!s2k
对
(
2
k
)
!
(2k)!
(2k)!稍作变形
(
2
k
)
!
=
1
×
2
×
.
.
.
×
k
×
(
k
+
1
)
×
.
.
.
×
2
k
≥
k
!
×
2
×
.
.
.
×
2
⎵
k
个
2
=
2
k
k
!
(2k)!=1\times 2\times...\times k\times (k+1)\times ...\times 2k\ge k!\times\underbrace {2 \times...\times 2}_{k个2}=2^kk!
(2k)!=1×2×...×k×(k+1)×...×2k≥k!×k个2
2×...×2=2kk!
将这个式子带入原式可得
1
2
(
e
s
+
e
−
s
)
=
∑
k
=
0
+
∞
s
2
k
(
2
k
)
!
≤
∑
k
=
0
+
∞
(
s
2
)
k
k
!
2
k
=
∑
k
=
0
+
∞
(
s
2
2
)
k
k
!
=
e
s
2
2
\frac12(e^s+e^{-s})=\sum_{k=0}^{+\infty}\frac {s^{2k}}{(2k)!}\le \sum_{k=0}^{+\infty}\frac {(s^{2})^k}{k!2^k} = \sum_{k=0}^{+\infty}\frac {(\frac{s^{2}}{2})^k}{k!}=e^{\frac{s^2}{2}}
21(es+e−s)=k=0∑+∞(2k)!s2k≤k=0∑+∞k!2k(s2)k=k=0∑+∞k!(2s2)k=e2s2
把以上几点结合起来可以得到
E
[
e
s
X
1
]
e
2
a
s
≤
e
s
2
2
E
[
e
s
∑
i
=
1
n
X
i
]
e
s
n
(
t
+
2
a
)
=
1
e
s
n
t
×
(
E
[
e
s
X
1
]
e
2
a
s
)
n
≤
1
e
s
n
t
×
e
n
s
2
2
=
(
e
s
2
2
−
s
t
)
n
\frac{\mathbb E[e^{sX_1}]}{e^{2as }}\le e^{\frac{s^2}{2}}\\ \frac{\mathbb E[e^{s\sum_{i=1}^nX_i}]}{e^{sn(t+2a )}}=\frac{1}{e^{snt}}\times (\frac{\mathbb E[e^{sX_1}]}{e^{2as }})^n \le \frac{1}{e^{snt}}\times e^{\frac{ns^2}{2}}=(e^{\frac {s^2}2-st})^n
e2asE[esX1]≤e2s2esn(t+2a)E[es∑i=1nXi]=esnt1×(e2asE[esX1])n≤esnt1×e2ns2=(e2s2−st)n
由于
s
s
s为任意大于
0
0
0的数,取
s
=
t
s=t
s=t,从而
E
[
e
s
∑
i
=
1
n
X
i
]
e
s
n
(
t
+
2
a
)
≤
(
e
−
t
2
2
)
n
=
e
−
n
t
2
2
P
(
X
‾
−
E
[
X
‾
]
≥
t
)
=
P
(
e
s
∑
i
=
1
n
X
i
≥
e
s
n
(
t
+
2
a
)
)
≤
E
[
e
s
∑
i
=
1
n
X
i
]
e
s
n
(
t
+
2
a
)
≤
e
−
n
t
2
2
\frac{\mathbb E[e^{s\sum_{i=1}^nX_i}]}{e^{sn(t+2a )}}\le(e^{-\frac {t^2}2})^n=e^{\frac{-nt^2}{2}}\\ \mathbb P(\overline X -\mathbb E[\overline X]\ge t )=\mathbb P(e^{s\sum_{i=1}^nX_i} \ge e^{sn(t+2a )})\le \frac{\mathbb E[e^{s\sum_{i=1}^nX_i}]}{e^{sn(t+2a )}}\le e^{-\frac{n t^2}{2}}
esn(t+2a)E[es∑i=1nXi]≤(e−2t2)n=e2−nt2P(X−E[X]≥t)=P(es∑i=1nXi≥esn(t+2a))≤esn(t+2a)E[es∑i=1nXi]≤e−2nt2
所以结论得证。这里再补充一点,我们还有以下对称的结论
P
(
X
‾
−
E
[
X
‾
]
≤
−
t
)
≤
e
−
n
t
2
2
\mathbb P(\overline X -\mathbb E[\overline X]\le -t )\le e^{-\frac{n t^2}{2}}
P(X−E[X]≤−t)≤e−2nt2
这是因为
P
(
X
‾
−
E
[
X
‾
]
≤
−
t
)
=
P
(
−
X
‾
−
E
[
−
X
‾
]
≥
t
)
\mathbb P(\overline X -\mathbb E[\overline X]\le -t )=\mathbb P(-\overline X -\mathbb E[-\overline X]\ge t )
P(X−E[X]≤−t)=P(−X−E[−X]≥t)
因为
P
(
X
i
=
1
)
=
1
2
+
a
,
P
(
X
i
=
−
1
)
=
1
2
−
a
\mathbb P(X_i=1)=\frac 1 2+a,\mathbb P(X_i=-1)=\frac 1 2-a
P(Xi=1)=21+a,P(Xi=−1)=21−a,所以
−
X
i
-X_i
−Xi也是形式一致的随机变量,由引理2可知
P
(
X
‾
−
E
[
X
‾
]
≤
−
t
)
=
P
(
−
X
‾
−
E
[
−
X
‾
]
≥
t
)
≤
e
−
n
t
2
2
\mathbb P(\overline X -E[\overline X]\le -t )=\mathbb P(-\overline X -E[-\overline X]\ge t )\le e^{-\frac{n t^2}{2}}
P(X−E[X]≤−t)=P(−X−E[−X]≥t)≤e−2nt2
把以上两者结合有以下推论
P
(
∣
X
‾
−
E
[
X
‾
]
∣
≥
t
)
=
P
(
X
‾
−
E
[
X
‾
]
≤
−
t
)
+
P
(
X
‾
−
E
[
X
‾
]
≥
t
)
≤
2
e
−
n
t
2
2
\mathbb P(\Big|\overline X -\mathbb E[\overline X]\Big| \ge t )=\mathbb P(\overline X -\mathbb E[\overline X]\le -t )+\mathbb P(\overline X -\mathbb E[\overline X]\ge t )\le 2e^{-\frac{n t^2}{2}}
P(∣∣∣X−E[X]∣∣∣≥t)=P(X−E[X]≤−t)+P(X−E[X]≥t)≤2e−2nt2
最后就利用上述引理2及其推论证明Hoeffding不等式
Hoeffding不等式的证明
Hoeffding不等式中的随机变量
X
1
,
.
.
.
,
X
n
X_1,...,X_n
X1,...,Xn满足
P
(
X
i
=
1
)
=
p
,
P
(
X
i
=
0
)
=
1
−
p
\mathbb P(X_i=1)=p,\mathbb P(X_i=0)=1-p
P(Xi=1)=p,P(Xi=0)=1−p,对其稍作变形,转化为引理2的形式
Y
i
=
2
X
i
−
1
P
(
Y
i
=
1
)
=
p
,
P
(
Y
i
=
−
1
)
=
1
−
p
Y_i=2X_i-1\\ \mathbb P(Y_i=1)=p,\mathbb P(Y_i=-1)=1-p
Yi=2Xi−1P(Yi=1)=p,P(Yi=−1)=1−p
从而
Y
‾
=
2
X
‾
−
1
,
E
[
Y
‾
]
=
2
E
[
X
‾
]
−
1
\overline Y= 2\overline X-1,\mathbb E[\overline Y]= 2\mathbb E[\overline X]-1
Y=2X−1,E[Y]=2E[X]−1
所以
P
(
∣
X
‾
−
E
[
X
‾
]
∣
≥
t
)
=
P
(
∣
2
X
‾
−
2
E
[
X
‾
]
∣
≥
2
t
)
=
P
(
∣
2
X
‾
−
1
−
(
2
E
[
X
‾
]
−
1
)
∣
≥
2
t
)
=
P
(
∣
Y
‾
−
E
[
Y
‾
]
∣
≥
2
t
)
\begin{aligned} \mathbb P(\Big|\overline X -\mathbb E[\overline X]\Big|\ge t ) &=\mathbb P(\Big|2\overline X -2\mathbb E[\overline X]\Big|\ge 2t )\\ &=\mathbb P(\Big|2\overline X-1 -(2\mathbb E[\overline X]-1)\Big|\ge2t )\\ &=\mathbb P(\Big|\overline Y -\mathbb E[\overline Y]\Big|\ge2t ) \end{aligned}
P(∣∣∣X−E[X]∣∣∣≥t)=P(∣∣∣2X−2E[X]∣∣∣≥2t)=P(∣∣∣2X−1−(2E[X]−1)∣∣∣≥2t)=P(∣∣∣Y−E[Y]∣∣∣≥2t)
由引理2的推论可知可知
P
(
∣
Y
‾
−
E
[
Y
‾
]
∣
≥
2
t
)
≤
2
e
−
n
(
2
t
)
2
2
=
2
e
−
2
n
t
2
\mathbb P(\Big|\overline Y -\mathbb E[\overline Y]\Big|\ge2t )\le 2e^{-\frac{n (2t)^2}{2}}=2e^{-2nt^2}
P(∣∣∣Y−E[Y]∣∣∣≥2t)≤2e−2n(2t)2=2e−2nt2
从而
P
(
∣
X
‾
−
E
[
X
‾
]
∣
≥
t
)
=
P
(
∣
Y
‾
−
E
[
Y
‾
]
∣
≥
2
t
)
≤
2
e
−
2
n
t
2
\mathbb P(\Big|\overline X -\mathbb E[\overline X]\Big|\ge t ) =\mathbb P(\Big|\overline Y -\mathbb E[\overline Y]\Big|\ge 2t )\le 2e^{-2nt^2}
P(∣∣∣X−E[X]∣∣∣≥t)=P(∣∣∣Y−E[Y]∣∣∣≥2t)≤2e−2nt2
从而结论得证。
[1] 霍夫丁不等式证明 https://github.com/Doraemonzzz/Learning-from-data/tree/master/Chapter1/md