DNN反向传播推导过程

最新推荐文章于 2024-07-24 11:52:18 发布

xuezhan123

最新推荐文章于 2024-07-24 11:52:18 发布

阅读量809

点赞数

分类专栏：深度学习文章标签：神经网络反向传播

深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

DNN反向传播推导简介

如果对DNN前向传播，梯度下降不熟悉，建议先了解一下。

这里假设DNN的损失函数如： $J(W,b,x,y)=\frac{1}{2}||a^L-y||^2_2$
其中输出层为第L层，输出结果 $a^L=\sigma(z^L)=\sigma(W^La^{L-1}+b^L)$ ，这样损失函数变为：

J (W, b, x, y) = 1 2 | | σ (W L a L - 1 + b L) - y | | 22

$J(W,b,x,y)=\frac{1}{2}||\sigma(W^La^{L-1}+b^L)-y||^2_2$
求解W，b的梯度为：

\partial J ( W , b , x , y ) \partial W L = \partial J ( W , b , x , y ) \partial z L \partial z L \partial W L = (a L - y) ⊙ σ' (z L) (a L - 1) T

$\frac{\partial J(W,b,x,y)}{\partial W^L}=\frac{\partial J(W,b,x,y)}{\partial z^L} \frac{\partial z^L}{\partial W^L}=(a^L-y)\odot{\sigma^{'}(z^L)(a^{L-1})^T}$

\partial J ( W , b , x , y ) \partial b L = \partial J ( W , b , x , y ) \partial z L \partial z L \partial b L = (a L - y) ⊙ σ' (z L)

$\frac{\partial J(W,b,x,y)}{\partial b^L}=\frac{\partial J(W,b,x,y)}{\partial z^L} \frac{\partial z^L}{\partial b^L}=(a^L-y)\odot{\sigma^{'}(z^L)}$
注意到，求解W，b梯度时有公共部分

∂J(W,b,x,y)∂zL ∂ J ( W , b , x , y ) ∂ z L $\frac{\partial J(W,b,x,y)}{\partial z^L}$ ,因此可以先把这一部分算出来，既损失函数对

zL z L $z^L$ 的导数记为：

δ L = \partial J ( W , b , x , y ) \partial z L = (a L - y) ⊙ σ' (z L)

$\delta^L=\frac{\partial J(W,b,x,y)}{\partial z^L}=(a^L-y)\odot{\sigma^{'}(z^L)}$
现在我们终于把输出层的梯度算出来了，那么如何计算上一层

L−1 L − 1 $L−1$ 层的梯度，上上层

L−2 L − 2 $L−2$ 层的梯度呢？这里我们需要一步步的递推，注意到对于第

l l $l$ 层的未激活输出

z^{l}

$z^l$ ，它的梯度可以表示为:

δ l = \partial J ( W , b , x , y ) \partial z l = \partial J ( W , b , x , y ) \partial z L \partial z L \partial z L - 1 \partial z L - 1 \partial z L - 2 \cdot \cdot \cdot \partial z l + 1 \partial z l

$\delta^l=\frac{\partial J(W,b,x,y)}{\partial z^l}=\frac{\partial J(W,b,x,y)}{\partial z^L} \frac{\partial z^L}{\partial z^{L-1}} \frac{\partial z^{L-1}}{\partial z^{L-2}}··· \frac{\partial z^{l+1}}{\partial z^{l}}$
如果可以算出来第

l l $l$ 层

δ^{l}

$\delta{^l}$ ，则该层的

Wl,bl W l , b l $W^l,b^l$ 很容易计算，因为根据前向传播有：

z l = W l a l - 1 + b l

$z^l=W^la^{l-1}+b^l$
所以求得

Wl,bl W l , b l $W^l,b^l$ 梯度如下：

\partial J ( W , b , x , y ) \partial W l = \partial J ( W , b , x , y ) \partial z l \partial z l \partial W l = δ l (a l - 1) T

$\frac{\partial J(W,b,x,y)}{\partial W^l}=\frac{\partial J(W,b,x,y)}{\partial z^l} \frac{\partial z^l}{\partial W^l}=\delta{^l}(a^{l-1})^T$

\partial J ( W , b , x , y ) \partial b l = \partial J ( W , b , x , y ) \partial z l \partial z l \partial b l = δ l

$\frac{\partial J(W,b,x,y)}{\partial b^l}=\frac{\partial J(W,b,x,y)}{\partial z^l} \frac{\partial z^l}{\partial b^l}=\delta{^l}$
所以问题的关键就是求

δl δ l $\delta{^l}$ ，我们用数学归纳法，第

L L $L$ 层的

δ^{L}

$\delta{^L}$ 上面我们已经求出，假设第

l+1 l + 1 $l+1$ 层的

δl+1 δ l + 1 $\delta{^{l+1}}$ 已经求出来了，那么如何求第

l l $l$ 层的

δ^{l}

$\delta{^l}$ 呢？注意这里：

δ l = \partial J ( W , b , x , y ) \partial z l = \partial J ( W , b , x , y ) \partial z l + 1 \partial z l + 1 \partial z l = δ l + 1 \partial z l + 1 \partial z l

$\delta^l=\frac{\partial J(W,b,x,y)}{\partial z^l}=\frac{\partial J(W,b,x,y)}{\partial z^{l+1}} \frac{\partial z^{l+1}}{\partial z^{l}} =\delta^{l+1} \frac{\partial z^{l+1}}{\partial z^l}$
可见，用归纳法递推

δl+1 δ l + 1 $\delta^{l+1}$ 和

δl δ l $\delta^l$ 的关键在于如何求解

δl+1δl δ l + 1 δ l $\frac{\delta^{l+1}}{\delta^{l}}$

zl+1 z l + 1 $z^{l+1}$ 和

zl z l $z^l$ 的关系很容易找出：

z l + 1 = W l + 1 a l + b l + 1 = W l + 1 σ (z l) + b l + 1

$z^{l+1}=W^{l+1}a^l+b^{l+1}=W^{l+1}\sigma(z^l)+b^{l+1}$
可以得出：

\partial z l + 1 \partial z l = (W l + 1) T ⊙ (σ' (z l), . ., σ' (z l))                    n l + 1

$\frac{\partial z^{l+1}}{\partial z^l}=(W^{l+1})^T\odot \underbrace{(\sigma^{'}(z^l),..,\sigma^{'}(z^l))}_{n_{l+1}}$
上式的Hadamard乘积表达的意义是权值矩阵的每一个列向量都点乘 $\sigma^{'}(z^l)$

将上式带入上面 $\delta^l$ 和 $\delta^{l+1}$ 的关系我们得出：

δ l = δ l + 1 \partial z l + 1 \partial z l = (W l + 1) T δ l + 1 ⊙ σ' (z l)

$\delta^{l} = \delta^{l+1}\frac{\partial z^{l+1}}{\partial z^{l}} = (W^{l+1})^T\delta^{l+1}\odot \sigma^{'}(z^l)$
得到了

δl δ l $\delta^l$ 的递推关系，只要求出某一层的

δl δ l $\delta^l$ ，求解

Wl,bl W l , b l $W^l,b^l$ 对应的梯度就很简单了。

参考资料：
http://www.cnblogs.com/pinard/p/6422831.html

xuezhan123

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
DNN反向传播推导过程

DNN反向传播推导简介如果对DNN前向传播，梯度下降不熟悉，建议先了解一下。这里假设DNN的损失函数如：J(W,b,x,y)=12||aL−y||22J(W,b,x,y)=12||aL−y||22J(W,b,x,y)=\frac{1}{2}||a^L-y||^2_2 其中输出层为第L层，输出结果aL=σ(zL)=σ(WLaL−1+bL)aL=σ(zL)=σ(WLaL−1+bL)a^L...
复制链接

扫一扫

专栏目录