反向传播四个基本方程

定义

z j l = ∑ k w j k l a k l − 1 + b j l ( 1.1 ) a j l = σ ( z j l ) ( 1.2 ) C = 1 2 ∑ j ( y j − a j l ) 2 ( 1.3 ) \begin{aligned} z_j^l&=\sum_kw_{jk}^la_k^{l-1}+b_j^l&(1.1)\\ a_j^l&=\sigma(z_j^l)&(1.2)\\ C&=\frac{1}{2}\sum_j(y_j-a_j^l)^2&(1.3) \end{aligned} zjlajlC=kwjklakl1+bjl=σ(zjl)=21j(yjajl)2(1.1)(1.2)(1.3)

其中

  • z j l z_j^l zjl为第 l l l层第 j j j个神经元激活函数的带权输入
  • a j l a_j^l ajl为第 l l l层第 j j j个神经元的激活输出, σ \sigma σ是激活函数
  • C C C为输出层二次代价函数

定义第 l l l层的第 j j j个神经元的误差 δ j l \delta_j^l δjl为:

δ j l = ∂ C ∂ z j l (2) \delta_j^l=\frac{\partial C}{\partial z_j^l}\tag{2} δjl=zjlC(2)


BP基本方程

δ j L = ( a j L − y j ) σ ′ ( z j L ) ( 3.1 ) δ j l = σ ′ ( z j l ) ∑ k w k j l + 1 δ k l + 1 ( 3.2 ) ∂ C ∂ b j l = σ j l ( 3.3 ) ∂ C ∂ w j k l = a k l − 1 δ j l ( 3.4 ) \begin{aligned} &\delta_j^L&=&(a_j^L-y_j)\sigma'(z_j^L)&(3.1)\\ &\delta_j^l&=&\sigma'(z_j^l)\sum_kw_{kj}^{l+1}\delta_k^{l+1}&(3.2)\\ &\frac{\partial C}{\partial b_j^l}&=&\sigma_j^l&(3.3)\\ &\frac{\partial C}{\partial w_{jk}^l}&=&a_k^{l-1}\delta_j^l&(3.4) \end{aligned} δjLδjlbjlCwjklC====(ajLyj)σ(zjL)σ(zjl)kwkjl+1δkl+1σjlakl1δjl(3.1)(3.2)(3.3)(3.4)

其中

  • δ j L \delta_j^L δjL是输出层第 j j j个神经元误差
  • δ j l \delta_j^l δjl是第 l l l层第 j j j个神经元误差,式(3.2)实现了通过下一层的误差计算当前层误差
  • ∂ C ∂ b j l \frac{\partial C}{\partial b_j^l} bjlC是代价函数关于网络中第 l l l层第 j j j个偏置的改变率,式(3.3)说明了该改变率就是对应神经元的误差
  • ∂ C ∂ w j k l \frac{\partial C}{\partial w_{jk}^l} wjklC是代价函数关于网络中连接第 l − 1 l-1 l1层第 k k k个神经元与第 l l l层第 j j j个神经元权重的改变率,式(3.4)表明其仅与该神经元误差和第 l − 1 l-1 l1层第 k k k个神经元的激活输出有关

方程推导

方程3.1

δ j L = ∂ C ∂ z j L = ∂ C ∂ a j L ∂ a j L ∂ z j L = ∂ C ∂ a j L ∂ [ σ ( z j L ) ] ∂ z j L = [ 1 2 ∑ k ( y k − a k L ) 2 ] ∂ a j L σ ′ ( z j L ) = ( a j L − y j ) σ ′ ( z j L ) \begin{aligned} \delta_j^L=&\frac{\partial C}{\partial z_j^L}\\=&\frac{\partial C}{\partial a_j^L}\frac{\partial a_j^L}{\partial z_j^L}\\=&\frac{\partial C}{\partial a_j^L}\frac{\partial [\sigma(z_j^L)]}{\partial z_j^L}\\=&\frac{[\frac{1}{2}\sum_k(y_k-a_k^L)^2]}{\partial a_j^L}\sigma'(z_j^L)\\=&(a_j^L-y_j)\sigma'(z_j^L) \end{aligned} δjL=====zjLCajLCzjLajLajLCzjL[σ(zjL)]ajL[21k(ykakL)2]σ(zjL)(ajLyj)σ(zjL)

方程3.2

δ j l = ∂ C ∂ z j l = ∑ k ( ∂ C ∂ z k l + 1 ∂ z k l + 1 ∂ z j l ) = ∑ k ( δ k l + 1 ∂ z k l + 1 ∂ z j l ) \begin{aligned} \delta_j^l=&\frac{\partial C}{\partial z_j^l}\\=&\sum_k\left ( \frac{\partial C}{\partial z_k^{l+1}}\frac{\partial z_k^{l+1}}{\partial z_j^l}\right )\\=&\sum_k\left ( \delta_k^{l+1}\frac{\partial z_k^{l+1}}{\partial z_j^l}\right ) \end{aligned} δjl===zjlCk(zkl+1Czjlzkl+1)k(δkl+1zjlzkl+1)
因为
z k l + 1 = ∑ j ( w k j l + 1 a j l + b k l + 1 ) = ∑ j ( w k j l + 1 σ ( z j l ) + b k l + 1 ) \begin{aligned} z_k^{l+1}=&\sum_j(w_{kj}^{l+1}a_j^l+b_k^{l+1})\\=&\sum_j(w_{kj}^{l+1}\sigma(z_j^l)+b_k^{l+1}) \end{aligned} zkl+1==j(wkjl+1ajl+bkl+1)j(wkjl+1σ(zjl)+bkl+1)

∂ z k l + 1 ∂ z j l = w k j l + 1 σ ′ ( z j l ) \frac{\partial z_k^{l+1}}{\partial z_j^l}=w_{kj}^{l+1}\sigma'(z_j^l) zjlzkl+1=wkjl+1σ(zjl)
所以
δ j l = σ ′ ( z j l ) ∑ k ( δ k l + 1 w k j l + 1 ) \delta_j^l=\sigma'(z_j^l)\sum_k\left ( \delta_k^{l+1}w_{kj}^{l+1}\right ) δjl=σ(zjl)k(δkl+1wkjl+1)

方程3.3

∂ C ∂ b j l = ∂ C ∂ z j l ∂ z j l ∂ b j l = δ j l ∂ z j l ∂ b j l \begin{aligned} \frac{\partial C}{\partial b_j^l}=&\frac{\partial C}{\partial z_j^l}\frac{\partial z_j^l}{\partial b_j^l}\\=&\delta_j^l\frac{\partial z_j^l}{\partial b_j^l} \end{aligned} bjlC==zjlCbjlzjlδjlbjlzjl
因为
z j l = ∑ k ( w j k l a k l − 1 + b j l ) z_j^l=\sum_k\left (w_{jk}^la_k^{l-1}+b_j^l\right ) zjl=k(wjklakl1+bjl)

∂ z j l ∂ b j l = 1 \frac{\partial z_j^l}{\partial b_j^l}=1 bjlzjl=1
所以
∂ C ∂ b j l = δ j l \frac{\partial C}{\partial b_j^l}=\delta_j^l bjlC=δjl

方程3.4

∂ C ∂ w j k l = ∂ C ∂ z j l ∂ z j l ∂ w j k l = δ j l ∂ z j l ∂ w j k l = δ j l ∂ ( ∑ i ( w j i l a i l − 1 + b j l ) ) ∂ w j k l = δ j l a k l − 1 \begin{aligned} \frac{\partial C}{\partial w_{jk}^l}=&\frac{\partial C}{\partial z_j^l}\frac{\partial z_j^l}{\partial w_{jk}^l}\\=&\delta_j^l\frac{\partial z_j^l}{\partial w_{jk}^l}\\=&\delta_j^l\frac{\partial (\sum_i(w_{ji}^la_i^{l-1}+b_j^l))}{\partial w_{jk}^l}\\=&\delta_j^la_k^{l-1} \end{aligned} wjklC====zjlCwjklzjlδjlwjklzjlδjlwjkl(i(wjilail1+bjl))δjlakl1

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值