在具有随机性变量的场景下,我们通常需要估计该随机变量可能的取值上界(或下界),并以此来设计相应的算法或解决方案。在概率论中,这样的估计通常被称为集中不等式(Concentration Inequality)。控制尾部概率 P [ x ≥ t ] \Bbb P[x\geq t] P[x≥t]的一种方法是控制随机变量 X X X的矩。获得对高阶矩的控制会导致尾概率的相应更尖锐的边界,从Markov’s inequality(只需要存在一阶矩)到Chernoff bound(需要存在矩生成函数)。
一.From Markov to Chernoff
1.最基本的尾界是马尔可夫不等式
Markov inequality
Theorem: 给定样本空间 Ω \Omega Ω上的非负随机变量 x x x ,且 x x x的期望 E [ x ] \Bbb E[x] E[x] 存在,则对任意 t t t>0 ,有
P [ x ≥ t ] ≤ E [ x ] t (1.1) \Bbb P[x \geq t]\leq \frac{\Bbb E[x]}{t}\tag{1.1} P[x≥t]≤tE[x](1.1)
proof :假设 x x x是非负随机变量,则有如下不等式
E [ x ] = ∫ 0 + ∞ x p ( x ) d x = ∫ 0 t x p ( x ) d x + ∫ t + ∞ x p ( x ) d x ≥ ∫ 0 t x p ( x ) d x + ∫ t + ∞ t p ( x ) d x ≥ t ∫ t + ∞ p ( x ) d x = t E [ x ≥ t ] \begin{aligned} \Bbb E[x]&=\int_{0}^{+\infty}xp(x)\text dx\\ &=\int_{0}^{t}xp(x)\text dx+\int_{t}^{+\infty}xp(x)\text dx\\ &\geq \int_{0}^{t}xp(x)\text dx+\int_{t}^{+\infty}tp(x)\text dx\\ &\geq t\int_{t}^{+\infty}p(x)\text dx\\ &=t\Bbb E[x\geq t] \end{aligned} E[x]=∫0+∞xp(x)dx=∫0txp(x)dx+∫t+∞xp(x)dx≥∫0txp(x)dx+∫t+∞tp(x)dx≥t∫t+∞p(x)dx=tE[x≥t]
2.马尔可夫不等式的一个直接推广是切比雪夫不等式
Chebyshev’s inequality
Theorem: 给定样本空间 Ω \Omega Ω上的随机变量 x x x,其期望 E [ x ] \Bbb E[x] E[x]和方差 V a r [ x ] \Bbb{Var}[x] Var[x]均存在,则对任意 t ≥ 0 t\geq 0 t≥0 ,有
P [ ∣ x − E [ x ] ∣ ≥ t ] ≤ V a r [ x ] t 2 (1.2) \Bbb P[|x-\Bbb E[x]|\geq t]\leq \frac{\Bbb{Var}[x]}{t^2}\tag{1.2} P[∣x−E[x]∣≥t]≤t2Var[x](1.2)
proof :利用马尔可夫不等式,有如下结论
P [ ( x − E [ x ] ) 2 ≥ t 2 ] ≤ E [ ( x − E [ x ] ) 2 ] t 2 ≤ V a r [ x ] t 2 \begin{aligned} \Bbb P[(x-\Bbb E[x])^2\geq t^2]&\leq \frac{\Bbb E[(x-\Bbb E[x])^2]}{t^2}\\ &\leq \frac{\Bbb{Var}[x]}{t^2} \end{aligned} P[(x−E[x])2≥t2]≤t2E[(x−E[x])2]≤t2Var[x]
又因 t ≥ 0 t\geq 0 t≥0,由此有下式成立
P [ ( x − E [ x ] ) 2 ≥ t 2 ] = P [ ∣ x − E [ x ] ∣ ≥ t ] \Bbb P[(x-\Bbb E[x])^2\geq t^2]=\Bbb P[|x-\Bbb E[x]|\geq t] P[(x−E[x])2≥t2]=P[∣x−E[x]∣≥t]
证毕.
inference: 马尔可夫不等式的各种扩展适用于具有高阶矩的随机变量。例如,每当 x x x具有 k k k阶矩时,马尔可夫不等式对随机变量 ∣ x ∣ k |x|^k ∣x∣k的应用就会得出
P [ ∣ x ∣ ≥ t ] ≤ E [ ∣ x ∣ k ] t k for all t ≥ 0 (1.3) \Bbb P[|x|\geq t]\leq \frac{\Bbb E[|x|^k]}{t^k}\qquad \text{for all }t\geq0\tag{1.3} P[∣x∣≥t]≤tkE[∣x∣k]for all t≥0(1.3)
proof :与切比雪夫不等式证明同理
3.事实上,这个结论还可以推广至非多项式函数上。
Theorem: 对于任意函数 ϕ ( x ) : R → [ 0 , + ∞ ) \phi(x) :\Bbb R\to [0,+\infty) ϕ(x):R→[0,+∞),且 ϕ ( x ) \phi(x) ϕ(x)严格单调增,则对任意 t ∈ R t\in \Bbb R t∈R,有
P [ x ≥ t ] = P [ ϕ ( x ) ≥ ϕ ( t ) ] ≤ E [ ϕ ( x ) ] ϕ ( t ) (1.4) \Bbb P[x\geq t]=\Bbb P[\phi(x)\geq \phi(t)]\leq \frac{\Bbb E[\phi(x)]}{\phi(t)}\tag{1.4} P[x≥t]=P[ϕ(x)≥ϕ(t)]≤ϕ(t)E[ϕ(x)](1.4)
在概率不等式中,一个通常的变换便是利用所谓的矩母函数(Moment Generating Function),即令 ϕ ( x ) = e λ x , λ > 0 \phi(x)=e^{\lambda x},\lambda >0 ϕ(x)=eλx,λ>0,此时,利用马尔可夫不等式我们可以得到
P [ x ≥ t ] ≤ E [ e λ x ] e λ t = exp ( log E [ e λ x ] − λ t ) \Bbb P[x\geq t]\leq \frac{\Bbb E[e^{\lambda x}]}{e^{\lambda t}}=\exp(\log \Bbb E[e^{\lambda x}]-\lambda t) P[x≥t]≤eλtE[eλx]=exp(logE[eλx]−λt)
优化我们对 λ \lambda λ的选择以获得最紧的结果,得到Chernoff bound
P [ x ≥ t ] ≤ inf λ > 0 { exp ( log E [ e λ x ] − λ t ) } (1.5) \Bbb P[x\geq t]\leq \inf_{\lambda > 0} \{\exp(\log \Bbb E[e^{\lambda x}]-\lambda t)\}\tag{1.5} P[x≥t]≤λ>0inf{
exp(logE[eλx]−λt)}(1.5)
Polynomial Markov versus Chernof
Theorem: 假设 x ≥ 0 x\geq 0 x≥0,并且 x x x的矩母函数存在于零附近的区间中。给定 δ > 0 \delta > 0 δ>0和整数 k = 1 , 2 k=1,2 k=1,2,有如下结论
inf k = 1 , 2 , ⋯ E [ x k ] δ k ≤ inf λ > 0 E [ e λ x ] e λ δ \inf_{k=1,2,\cdots}\frac{\Bbb E[x^k]}{\delta^k}\leq \inf_{\lambda >0}\frac{\Bbb E[e^{\lambda x}]}{e^{\lambda \delta}} k=1,2,⋯infδkE[xk]≤λ>0infeλδE[eλx]
proof :使用泰勒展开
E [ e λ x ] = ∑ n = 0 ∞ λ n n ! E [ x n ] ≥ ( ∑ n = 0 ∞ ( λ δ ) n n ! ) inf k = 0 , 1 , 2 , … 1 δ k E [ x k ] ≥ e λ δ inf k = 0 , 1 , 2 , … 1 δ k E [ x k ] . \mathbb{E}\left[e^{\lambda x}\right]=\sum_{n=0}^{\infty} \frac{\lambda^n}{n !} \mathbb{E}\left[x^n\right] \geq\left(\sum_{n=0}^{\infty} \frac{(\lambda \delta)^n}{n !}\right) \inf _{k=0,1,2, \ldots} \frac{1}{\delta^k} \mathbb{E}\left[x^k\right] \geq e^{\lambda \delta} \inf _{k=0,1,2, \ldots} \frac{1}{\delta^k} \mathbb{E}\left[x^k\right] . E[eλx]=n=0∑∞n!λnE[xn]≥(n=0∑∞n!(λδ)n)k=0,1,2,…infδk1E[xk]≥eλδk=0,1,2,…infδ