BP网络

神经网络的数学描述

作如下假设:

  • 网络共有
  • 激活函数为
  • 对第层:
    • neuron数目为
    • 个neuron接收上一级第i个neuron的输入为:
    • 个neuron与上一级第个neuron的连接权值为:
    • 个neuron的偏置为:
    • 个neuron的输入和为:
    • 个neuron的激活输出为:

梯度下降法

首先说梯度下降(gradient descent)方法,梯度下降是一个最常用的数学优化方法,要优化一个损失函数,就是要找到它的极小值,也就是要让向负梯度方向移动,梯度下降法每次迭代将向负梯度方向移动为学习率,也就是:

BP算法

然后说BP算法,在BP算法中,我们要优化的也是损失函数,损失函数取成残差的模方,即

将BP算法看作问题,即,优化权值和偏置

δ规则

BP的精髓在于δ规则,而δ规则的精髓在于它建立了相邻两层神经元的损失函数的偏导的关系,这个关系可以解释为:后级神经元的误差依网络权重传递给前级神经元。下面给出δ规则的推导,注意偏导数的链式法则(chain rule)会在推导中起到重要的作用。

首先,我们定义一个δ值,δ的含义是“误差对偏置项的偏导”

上面这个式子非常重要,他告诉我们,原因很简单,因为中是偏置项,也就是说对于的偏导是1。

下面推导相邻两层之间δ的关系。

其中

因此得到

(1)

观察上式的形式,我们可以给出如下解释:预测误差在神经网络中反向传递,前一个神经元对于后一个神经元的误差的贡献就是它们之间的连接权值,而某一个神经元所造成的误差是它对所有下级神经元造成的误差的总和。

有了δ规则,我们可以确定所有的,也就是说确定了所有的偏置项的优化规则,而权值的优化规则也很好确定:

(2)

上面所有的推导形成了这样一个优化思路:通过在层与层之间的权值关系确定所有δ,通过所有δ确定所有权值和偏置的梯度方向,进而确定优化规则。

在层之间递归确定δ时,还缺少最后一环,即最后层也就是输出层的δ值,这也不难求:

(3)

看,一切都是链式法则。现在我们有了递归的初值[式(3)],有了递归规则[式(1)],有了递归项对于优化规则的决定规则[式(2)],就可以逐次迭代优化网络了。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值