神经网络的数学描述
作如下假设:
- 网络共有
层
- 激活函数为
- 对第
层:
- neuron数目为
- 第
个neuron接收上一级第i个neuron的输入为:
- 第
个neuron与上一级第
个neuron的连接权值为:
- 第
个neuron的偏置为:
- 第
个neuron的输入和为:
- 第
个neuron的激活输出为:
- neuron数目为
梯度下降法
首先说梯度下降(gradient descent)方法,梯度下降是一个最常用的数学优化方法,要优化一个损失函数,就是要找到它的极小值,也就是要让
向负梯度方向移动,梯度下降法每次迭代将
向负梯度方向移动
,
为学习率,也就是:
BP算法
然后说BP算法,在BP算法中,我们要优化的也是损失函数,损失函数取成残差的模方,即
将BP算法看作问题,即
,优化权值
和偏置
。
δ规则
BP的精髓在于δ规则,而δ规则的精髓在于它建立了相邻两层神经元的损失函数的偏导的关系,这个关系可以解释为:后级神经元的误差依网络权重传递给前级神经元。下面给出δ规则的推导,注意偏导数的链式法则(chain rule)会在推导中起到重要的作用。
首先,我们定义一个δ值,δ的含义是“误差对偏置项的偏导”
上面这个式子非常重要,他告诉我们,原因很简单,因为
在
中是偏置项,也就是
说对于
的偏导是1。
下面推导相邻两层之间δ的关系。
其中
因此得到
观察上式的形式,我们可以给出如下解释:预测误差在神经网络中反向传递,前一个神经元对于后一个神经元的误差的贡献就是它们之间的连接权值,而某一个神经元所造成的误差是它对所有下级神经元造成的误差的总和。
有了δ规则,我们可以确定所有的,也就是说确定了所有的偏置项的优化规则,而权值的优化规则也很好确定:
上面所有的推导形成了这样一个优化思路:通过在层与层之间的权值关系确定所有δ,通过所有δ确定所有权值和偏置的梯度方向,进而确定优化规则。
在层之间递归确定δ时,还缺少最后一环,即最后层也就是输出层的δ值,这也不难求:
看,一切都是链式法则。现在我们有了递归的初值[式(3)],有了递归规则[式(1)],有了递归项对于优化规则的决定规则[式(2)],就可以逐次迭代优化网络了。