[note]李宏毅Deep Learning 之 BackPropagation笔记

最新推荐文章于 2024-05-05 17:37:24 发布

scholar沛

最新推荐文章于 2024-05-05 17:37:24 发布

阅读量965

点赞数 29

分类专栏：学习笔记文章标签：深度学习笔记人工智能

本文链接：https://blog.csdn.net/weixin_43720735/article/details/138186904

版权

学习笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文章目录

Gradient Descent
Math premise
Back Propagation
- forward pass
- backward pass
Summary

中文名：反向传播算法

用于Gradient Descent 来train 一个neural network时用到

BackPropagation的核心是通过链式法则改变微分形式，并用forward pass 与 backward pass求出对应微分

Gradient Descent

在进行Gradient Descent 步骤的时候，我们需要计算 $\nabla L$ ，也就是要计算L对各个parameter的偏微分，如果我们的parameter非常多，我们的layers也比较多（例如在做语音识别模型的时候可能有7，8层）

To compute the gradients efficiently,we use backpropagation

Math premise

数学前置知识：Chain Rule

不懂的自行学习Calculus

Back Propagation

这里 $C^n$ 代表预测值 $y^n$ 与真实值 $\hat y^n$ 的距离

对公式整体取偏微分可以得到右式

我们先取三角形中的neuron出来考虑

我们想要计算 $\frac { \partial C } { \partial w }$ ,根据一阶微分形式不变性可得 $\frac { \partial C } { \partial w } = \frac { \partial z } { \partial w } \frac { \partial C } { \partial z } $

我们将前面的 $\frac {\partial z}{\partial w}$ 称为Forward Pass:commute $\frac {\partial z}{\partial w}$ for all parameters,这个很容易计算即是前面feature的值

将后面的 $\frac { \partial C } { \partial z}$ 称为Backward Pass:commute $\frac { \partial C } { \partial z}$ for all activation function inputs z

forward pass

forward pass 计算起来很简单

也就是说Forward pass 过程就是将input输入进neural network中计算每一个neuron 的Output即可

backward pass

如何计算 $\frac { \partial C } { \partial z}$ ?

我们同样使用一阶微分形式不变性$\frac { \partial C } { \partial z } = \frac { \partial a } { \partial z } \frac { \partial C } { \partial a } $

$\frac{\partial a}{\partial z}$ 就是Activation function的微分（假如是sigmoid function就是 $\sigma ^ { \prime }(z)$ ）

那么 $\frac{\partial C}{\partial a}$ 计算则是利用Chain rule表示为 $\frac { \partial C } { \partial a } = \frac { \partial z ^ { \prime } } { \partial a } \frac { \partial C } { \partial z ^ { \prime } } + \frac { \partial z ^ { \prime \prime } } { \partial a } \frac { \partial C } { \partial z ^ { \prime \prime } }$

这里两项的原因是因为a的下一项只有两个neuron，如果有n个则是n个的summation

在这里插入图片描述

也就是说现在如果我们知道？的两个值就可以得出 $\frac { \partial C } { \partial z}$ 的值了

$\frac { \partial C } { \partial z } = \sigma ^ { \prime } ( z ) \left[ w _ { 3 } \frac { \partial C } { \partial z ^ { \prime } } + w _ { 4 } \frac { \partial C } { \partial z ^ { \prime \prime } } \right]$

在这里我们注意到，每次我们想要计算当前这个neuron的C关于z的偏微分的时候，我们需要求出下一层的C的偏微分，也就是说，我们需要从后往前来反复求偏微分就可以了，这就是为什么叫做backpropagation,这在ppt中叫做Compute $\frac{\partial C}{\partial z}$ reversely