机器学习数学原理(8)——霍夫丁不等式

机器学习数学原理(8)——霍夫丁不等式

这一篇博文主要是为后面的介绍学习理论(Learning Theory)的博文做铺垫。在学习理论中将会使用到霍夫丁不等式作为其引论之一。当然也可以选择直接接受引论从而跳过这一篇的推导,读者可以根据自己的需求来选择。

需要说明的是,该篇博文直接选择翻译英文的文章,如果读者更喜欢原版(显然原版会更加准确,毕竟笔者的英语水平还是有点烂的),这里笔者也给出了资源的链接:http://download.csdn.net/detail/z_x_1996/9869678

霍夫丁不等式

霍夫丁不等式(Hoeffding’s inequality),在概率论中,该不等式给出了随机变量的和与其期望值偏差的概率上限。霍夫丁不等式被Wassily Hoeffding于1963年提出并证明。

霍夫丁不等式是一个Azuma-Hoeffding不等式的特例,并且他比Sergei Bernstein于1923年证明的Bernstein不等式更加具有广泛性。这几个不等式都是McDiarmid’s不等式的特例。这样,我们基本就把这几个不等式的关系理清楚了。

1 伯努利随机变量的特例

霍夫丁不等式经常被应用于一些独立分布的伯努利随机变量的重要特例中,这也是为什么这个不等式在计算机科学以及组合数学中如此常见。我们认为一个抛硬币时一个硬币A面朝上的概率为p,B面朝上的概率则为1-p。我们抛n次硬币,那么A面朝上次数的期望值为np。那么进一步我们可以知道,A面朝上的次数不超过k次的概率能够被下面的表达式完全确定:

这里的H(n)为抛n次硬币其A面朝上的次数。

对某一ε>0,当k=(p-ε)n时,上面不等式确定的霍夫丁上界将会按照指数级变化:

相似的,对某一ε>0,当k=(p+ε)n,霍夫丁不等式的概率边界同样可以确定为:

这样根据上面两个式子我们可以得到:

比如说现在我们令

那么可以得到

2 普遍情况

现在令X1,X2,…,Xn为[0,1]的独立随机变量,即0<=Xi<=1。我们定义这些变量的经验均值为:

在1963年霍夫丁提出该不等式,其中霍夫丁定理一中的一个不等式为:

当知道Xi严格的边界范围ai,bi(即Xi属于[ai,bi])时,霍夫丁定理二更加广泛:

这个不等式也可以写成和的形式:

其中

需要注意的是对于Xi为不放回的抽样该等式依然成立;在这样的例子中这些随机变量不在是独立的了。这种情形的证明可以看Hoeffding在1963年发表的论文。如果需要一个在无放回抽样的例子中更好的边界,可以查看Serfling在1974年发表的论文。

3 证明

在这个部分,我们给出了霍夫丁不等式的证明。改证明使用了霍夫丁引理

假设X为一均值为0的实数随机变量并且满足

那么有如下的不等式成立

使用这个引理,我们可以证明霍夫丁不等式。加入X1,X2,…,Xn为n个独立分布的随机变量并且满足

那么对于s,t>=0,Markov不等式以及Xi的独立性表明:

为了得到最好的概率上限,我们发现将不等式右边等为一个关于s的函数,现在关于s最小化该式子。定义

注意到g是一个二次函数,若要获取其最小值则虚满足

这样我们可以得到

4 使用实例

置信区间

霍夫丁不等式被用来分析样本的置信区间,我们可以通过定理一得到:

这个不等式说明了估计值比真值大t的概率被指数边界控制。对称的,以下的不等式同样成立:

将两式相加我们可以得到如下不等式:

上述不等式可以理解为:

即真值的估值范围。其中

所以,我们要求至少上述不等式右边式子的样本数量从而使得估值边间更加靠近真值。

  • 36
    点赞
  • 132
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
梯度下降算法是机器学习中一种广泛应用的最优化算法,其主要目的是通过迭代找到目标函数的最小值,或者收敛到最小值。梯度下降算法的原理可以从一个下山的场景开始理解。算法的基本思想是沿着目标函数梯度的方向更新参数值,以期望达到目标函数的最小值。 在机器学习中,梯度下降算法常常用于求解损失函数的最小值。在简单的线性回归中,我们可以使用最小二乘法来求解损失函数的最小值。然而,在绝大多数情况下,损失函数是非线性的且复杂。因此,梯度下降算法在机器学习领域得到了广泛的应用。实际上,许多优秀的算法都是在梯度下降算法的启发下诞生的,例如AdaGrad、RMSProp、Momentum等等。 梯度下降算法的核心思想是通过计算目标函数的梯度来确定参数更新的方向。梯度表示了函数在某一点上的变化率,沿着梯度的方向可以使函数值快速减小。因此,梯度下降算法沿着梯度的反方向更新参数值,朝着目标函数的最小值靠近。算法的迭代过程会持续更新参数值,直到收敛到最小值或达到停止条件。 在实际应用中,为了提高算法的效率和准确性,通常会对梯度下降算法进行改进和优化。例如,可以使用学习率来控制参数值的更新步长,或者采用批量梯度下降来同时计算多个样本的梯度。这些改进可以帮助算法更快地收敛并找到更好的解。 总之,梯度下降算法是一种重要的最优化算法,在机器学习中被广泛应用。其原理是通过计算目标函数的梯度来更新参数值,以期望达到最小值。通过迭代的方式,梯度下降算法可以找到目标函数的最优解或者接近最优解。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值