Chernoff Bound

最新推荐文章于 2025-03-18 12:45:28 发布

lamedaZzz

最新推荐文章于 2025-03-18 12:45:28 发布

阅读量9.4k

点赞数

分类专栏：算法设计与分析

算法设计与分析专栏收录该内容

40 篇文章

订阅专栏

引文

中心不等式（Concentration Inequality）是分析随机算法的经典工具，在机器学习算法的理论分析中也用的特别多。为了
学习这方面的知识，刚开始我选择的是Massart和Lugosi所著的Concentration Inequalities，无奈数学水平不够，看了一章就实在看不下去了。后来换了这本简单一些的Concentration of Measure for the Analysis of Randomized Algorithms，总算是能往后翻了。这个系列的文章作为读书笔记，希望能够督促自己坚持读完。

Concentration of meature可简单地理解为随机变量在其期望处“聚集”的行为。概率论中已经提供了两个经典工具————大数定律及中心极限定理————来刻画这种现象，然而它们所给出的结果存在几点不足：

上述结果只刻画了渐进情况下的性质，然而在分析实际算法时我们更青睐能够应用于finite case的结果
上述经典工具给出的是qualitative的结果，但我们更希望有quantitative的结果，也即明确的收敛率
上述经典工具给出的结果都基于独立性的假设，然而对于很多复杂的随机算法，独立性是不满足的，因此我们需要不依赖独立性假设的工具。

Chernoff Bound

Chernoff bounding technique指的是用moment-generating function来处理多个随机变量之和的期望的技巧。所谓moment-generating function被定义为随机变量X的指数函数的期望E[eλX]。

先来看一个简单的例子：考虑独立同分布的Bernoulli随机变量Xi∼Bernoulli(p)及它们的和X=∑i∈[n]Xi，易见X∼Binomial(n,p)。现在要估计X偏离其期望一定距离的概率，即Pr[X>n(p+t)]。先考虑一个一般性的情况：估计Pr[X>m]。由Markov不等式易得

P r [X > m] = P r [e λ X > e λ m] \leq E [ e λ X ] e λ m

根据Xi的独立性，上述式子中的moment-generating function可写成

E [e λ X] = E [e λ \sum i X i] = E [\prod i e λ X i] = \prod i E [e λ X i] = (p e λ + q) n

其中q=1−p. 再令m=(p+t)n，原不等式变为

P r [X > m] \leq (p e λ + q e λ ( p + t )) n

将上述不等式右边视为λ的函数，找一个λ>0使右边最小，由此我们得到基本的Chernoff bound：

P r [X > (p + t) n] \leq ((p p + t) p + t (q q - t) q - t) n = [exp (- (p + t) ln p + t p - (q - t) ln q - t q)] n = exp (- n D K L (p + t | | p))

其中DKL(⋅||⋅)是KL-Divergence. 上述bound说明，当实际分布（的参数）是(p,q)时，观测到经验分布(p+t,q−t)的概率随着样本大小n的增加指数下降，且下降速率与实际分布及经验分布的KL-Divergence密切相关。

Chernoff-Hoeffding bound

之前Chernoff bound的推导是在Xi为独立同分布的Bernoulli随机变量的假定下进行的，现在我们把上述bound推广到Xi是任意[0,1]间的独立随机变量的情况。首先考虑Xi是独立但非同分布的Bernoulli随机变量的情况。此时X的moment-generating function变为

E [e λ X] = \prod i (p i e λ + q i)

根据Arithmetic-Geometric Mean Inequality易得

E [e λ X] = \prod i (p i e λ + q i) \leq (\sum i ( p i e λ + q i ) n) n = (p e λ + q) n

其中p=∑ipi/n,q=1−p. 易见此时bound又变回了之前独立同分布时的形式，因此上一节得到的bound依然成立。

接下来考虑Xi是[0,1]上任意（既可以是离散也可以是连续的）独立随机变量的情况，使用的技巧是由Hoeffding提出的，因此最后得到的bound也叫Chernoff-Hoeffding bound。这里要利用函数eλx的凸性：在区间[0,1]上，eλx的图像总在连接点(0,1)及(1,eλ)的直线之下。该直线的方程为y=(eλ−1)x+1，因此有

E [e λ X i] \leq E [(e λ - 1) X i + 1] = p i e λ + q i

故有

E [e λ X] \leq \prod i E [e λ X i] \leq \prod i (p i e λ + q i)

这与前述Xi是独立非同分布Bernoulli随机变量的情况一致，因此上一节得到的bound依然成立。

Variance bound

之前得到的bound都只利用了一阶矩（期望）的信息，作为Chernoff bounding technique的一个简单应用，我们考虑引入二阶矩（方差）的信息。这里的关键技巧是利用不等式ex≤1+x+x2,0<|x|<1为moment-generating function构造上界，从而引入二阶矩（x2）。设μi=E[Xi],μ=E[X]，易知