机器学习算法的调试 —— 梯度检验(Gradient Checking)

反向传播算法很难调试得到正确结果,尤其是当实现程序存在很多难于发现的bug 时。举例来说,索引的缺位错误(off-by-one error)会导致只有部分层的权重得到训练(for(i=1; i<=m; ++i) 被漏写为 for(i=1; i<m; ++i)),再比如忘记计算偏置项。这些错误会使你得到一个看似十分合理的结果(但实际上比正确代码的结果要差)。因此,仅从计算结果上来看,我们很难发现代码中有什么东西遗漏了。本节中,我们将介绍一种对求导结果进行数值检验的方法,该方法可以验证求导代码是否正确。另外,使用本节所述求导检验方法,可以帮助你提升写正确代码的信心。

数学原理

考虑我们想要最小化以  θ  为自变量的目标函数  J(θ) θ  可以为标量和可以为矢量,在 Numpy 的编程环境下,处理是一样的),迭代梯度更新公式为:

θ:=θαddθJ(θ)

我们不妨以 Sigmoid 函数为例,也即  f(z)=11+exp(z) ,其导数形式为  f(z)=g(z)=f(z)(1f(z)) ,我们可轻易地编程实践,接着我们便可使用  θ:=θαddθJ(θ) 来实现梯度下降算法,那么我们如何知道  g(z) 梯度的正确性呢。

回忆导数的数学定义:

ddθJ=limϵ0J(θ+ϵ)J(θϵ)2ϵ

由此我们可得梯度校验的数值校验公式: 

g(θ)J(θ+ϵ)J(θϵ)2ϵ

这便是梯度检验的原理。在实际应用中,我们常将  ϵ  设为一个很小的常量,比如  104  数量级,我们不会将它设得太小,比如  1020 ,因为那将导致数值舍入误差。 事实上,上式两端值的接近程度取决于  J  的具体形式,但在假定  ϵ=104  的情况 下,通常会发现左右两端至少有四位有效数字是一致的(或者说精度至少在0.0001一级)。

编程实现

import numpy as np

def sigmoid(z):
    return 1./(1+np.exp(-z))
def sigmoid_prime(z):
    return sigmoid(z)*(1-sigmoid(z))
def check_gradient(f, x0, epsilon):
    return (f(x0+epsilon) - f(x0-epsilon))/2/epsilon

if __name__ == '__main__':
    x0 = np.array([1, 2, 3])
    epsilon = 1e-4
    print(sigmoid_prime(x0))
            # [ 0.19661193  0.10499359  0.04517666]
    print(check_gradient(sigmoid, x0, epsilon))
            # [ 0.19661193  0.10499359  0.04517666]
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值