UA MATH567 高维统计I 概率不等式1 Hoeffding不等式与Chernoff不等式

UA MATH567 高维统计I 概率不等式1 Hoeffding不等式与Chernoff不等式

MATH 564系列我们已经介绍了几个基本的概率不等式:Markov不等式、Chebyshev不等式、Chernoff不等式,这一类不等式有一个共同的名字,叫concentration inequalities,因为它们反映的是概率集中到分布的中心(比如均值)的程度,所以我觉得翻译成集中度不等式是还可以的,中文的wiki用的是集中不等式,我觉得含义也差不多。在概率不等式0中我们讨论了Chebyshev不等式,它在大样本时非常不sharp,所以这一讲的目标是基于Markov不等式推出更sharp一点的不等式,也就是Hoeffding不等式与Chernoff不等式。

Hoeffding不等式

假设 X i ∈ [ m i , M i ] , i = 1 , ⋯   , N X_i \in [m_i,M_i],i=1,\cdots,N Xi[mi,Mi],i=1,,N, ∀ t > 0 \forall t>0 t>0, 下面的不等式被称为Hoeffding不等式,
P ( ∑ i = 1 N ( X i − E X i ) ≥ t ) ≤ exp ⁡ ( − 2 t 2 ∑ i = 1 N ( M i − m i ) 2 ) P \left( \sum_{i=1}^N (X_i - EX_i)\ge t \right) \le \exp \left( -\frac{2t^2}{\sum_{i=1}^N (M_i - m_i)^2} \right) P(i=1N(XiEXi)t)exp(i=1N(Mimi)22t2)

完整的证明可以参考Hoeffding (1963)的文章,这里证明一个特殊情况, X i ∼ i i d B e r ( 1 / 2 ) X_i\sim_{iid}Ber(1/2) XiiidBer(1/2) (对称Bernoulli分布):
P ( ∑ i = 1 N a i X i ≥ t ) ≤ exp ⁡ ( − t 2 2 ∑ i = 1 N a i 2 ) P \left( \sum_{i=1}^N a_iX_i\ge t \right) \le \exp \left( -\frac{t^2}{2\sum_{i=1}^N a_i^2} \right) P(i=1NaiXit)exp(2i=1Nai2t2)

证明这个特例是因为接下来用到的证明方法是用来证明类似Hoeffding不等式的一般性思路。

证明
考虑函数 g ( t ) = e λ t g(t)=e^{\lambda t} g(t)=eλt,对随机变量 ∑ i = 1 N a i X i \sum_{i=1}^N a_iX_i i=1NaiXi使用Markov不等式,
P ( ∑ i = 1 N a i X i ≥ t ) ≤ e − λ t E exp ⁡ ( λ ∑ i = 1 N a i X i ) P \left( \sum_{i=1}^N a_iX_i\ge t \right) \le e^{-\lambda t}E\exp \left( \lambda\sum_{i=1}^N a_iX_i \right) P(i=1NaiXit)eλtEexp(λi=1NaiXi)

因为 λ \lambda λ的任意性,我们可以选择一个最小的上界:
min ⁡ λ e − λ t E exp ⁡ ( λ ∑ i = 1 N a i X i ) \min_{\lambda} e^{-\lambda t}E\exp \left( \lambda\sum_{i=1}^N a_iX_i \right) λmineλtEexp(λi=1NaiXi)

接下来我们要做的就是找到这个最值,计算
e − λ t E exp ⁡ ( λ ∑ i = 1 N a i X i ) = e − λ t ∏ i = 1 N E e λ a i X i = e − λ t ∏ i = 1 N e λ a i + e − λ a i 2 ≤ e − λ t ∏ i = 1 N e λ 2 a i 2 / 2 = exp ⁡ ( − λ t + λ 2 2 ∑ i = 1 N a i 2 ) e^{-\lambda t}E\exp \left( \lambda\sum_{i=1}^N a_iX_i \right) = e^{-\lambda t}\prod_{i=1}^N Ee^{\lambda a_i X_i} \\ = e^{-\lambda t}\prod_{i=1}^N \frac{e^{\lambda a_i}+e^{-\lambda a_i}}{2} \le e^{-\lambda t}\prod_{i=1}^N e^{\lambda^2 a_i^2/2}\\=\exp \left( -\lambda t+\frac{\lambda^2}{2}\sum_{i=1}^N a_i^2 \right) eλtEexp(λi=1NaiXi)=eλti=1NEeλaiXi=eλti=1N2eλai+eλaieλti=1Neλ2ai2/2=exp(λt+2λ2i=1Nai2)

需要注意的是第二行我们把这个上界又放大了一点,主要的目的是找一个更容易计算最小值的形式:
min ⁡ exp ⁡ ( − λ t + λ 2 2 ∑ i = 1 N a i 2 ) = e − λ t E exp ⁡ ( λ ∑ i = 1 N a i X i ) \min \exp \left( -\lambda t+\frac{\lambda^2}{2}\sum_{i=1}^N a_i^2 \right) = e^{-\lambda t}E\exp \left( \lambda\sum_{i=1}^N a_iX_i \right) minexp(λt+2λ2i=1Nai2)=eλtEexp(λi=1NaiXi)

证毕

Hoeffding不等式在统计学习中具有广泛的应用,比如监督学习理论中Principle of empirical risk minimization的一致性推导,Boosting的运行次数估计等。

Chernoff不等式

UA MATH564 概率论 概率不等式中,我们介绍了Chernoff上界。给定具有某种特定分布形式的随机变量,我们可以用Legendre变换的思路计算出随机变量尾部概率的Chernoff上界。Chernoff不等式是Chernoff上界的一个特例,考虑互相独立的Bernoulli变量 X i ∼ B e r ( p i ) X_i \sim Ber(p_i) XiBer(pi),定义 S N = ∑ i = 1 N X i S_N = \sum_{i=1}^N X_i SN=i=1NXi μ = E S N \mu = ES_N μ=ESN,对于 t > μ t>\mu t>μ
P ( S N ≥ t ) ≤ e − μ ( e μ / t ) t P(S_N \ge t) \le e^{-\mu} (e\mu/t)^t P(SNt)eμ(eμ/t)t对于 t < μ t<\mu t<μ
P ( S N ≤ t ) ≤ e − μ ( e μ / t ) t P(S_N\le t) \le e^{-\mu} (e\mu/t)^t P(SNt)eμ(eμ/t)t

为了展示证明方法,这里给出上界的证明,当然也可以用564介绍的计算Chernoff bound的方法。

证明
根据Hoeffding不等式的证明过程,
P ( S N ≥ t ) ≤ e − λ t ∏ i = 1 N E e λ X i P(S_N\ge t) \le e^{-\lambda t}\prod_{i=1}^N Ee^{\lambda X_i} P(SNt)eλti=1NEeλXi

下面计算:
∏ i = 1 N E e λ X i = ∏ i = 1 N [ 1 + ( e λ − 1 ) p i ] ≤ ∏ i = 1 N exp ⁡ [ ( e λ − 1 ) p i ] = exp ⁡ [ ( e λ − 1 ) μ ] \prod_{i=1}^NEe^{\lambda X_i} =\prod_{i=1}^N[ 1+(e^{\lambda}-1)p_i] \le \prod_{i=1}^N \exp [(e^{\lambda}-1)p_i] = \exp[(e^{\lambda}-1)\mu] i=1NEeλXi=i=1N[1+(eλ1)pi]i=1Nexp[(eλ1)pi]=exp[(eλ1)μ]

中间一步用了Bernoulli不等式。因此
P ( S N ≥ t ) ≤ e − λ t exp ⁡ [ ( e λ − 1 ) μ ] P(S_N\ge t) \le e^{-\lambda t}\exp[(e^{\lambda}-1)\mu] P(SNt)eλtexp[(eλ1)μ]

这个上界在 λ = ln ⁡ ( t / μ ) \lambda = \ln(t/\mu) λ=ln(t/μ)时取最小值,因此
P ( S N ≥ t ) ≤ e − λ t ∏ i = 1 N E e λ X i P(S_N\ge t) \le e^{-\lambda t}\prod_{i=1}^N Ee^{\lambda X_i} P(SNt)eλti=1NEeλXi

证毕

Hoeffding不等式与Chernoff不等式它们的上界关于 t t t都是指数级递减的,这种上界就比Chebyshev那种二次的递减更sharp。

©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页