机器学习基础随笔（7）反向传播

最新推荐文章于 2024-07-08 21:34:20 发布

追求大牛之人

最新推荐文章于 2024-07-08 21:34:20 发布

阅读量4.2k

点赞数 2

本文链接：https://blog.csdn.net/weixin_43895254/article/details/107922015

版权

本文介绍了反向传播（Backpropagation）在训练神经网络中的作用，它实际上是梯度下降的一种高效实现方式。文章详细讲解了链式法则、前向传播和反向传播的概念，并通过例子解释了如何计算神经网络中参数的梯度。反向传播利用链式法则，通过计算损失函数对网络各层节点的偏导数，逐层反向传播，从而高效求得权重的梯度。最后，总结了反向传播的基本步骤，包括前向传播的输出和反向传播的损失梯度计算。

摘要由CSDN通过智能技术生成

Backpropagation

Backpropagation(反向传播)，就是告诉我们用gradient descent来train一个neural network的时候该怎么做，它只是求微分的一种方法，而不是一种新的算法

Gradient Descent

gradient descent的使用方法，跟前面讲到的linear Regression或者是Logistic Regression是一模一样的，唯一的区别就在于当它用在neural network的时候，network parameters $\theta=w_1,w_2,...,b_1,b_2,...$ 里面可能会有将近million个参数

所以现在最大的困难是，如何有效地把这个近百万维的vector给计算出来，这就是Backpropagation要做的事情，所以Backpropagation并不是一个和gradient descent不同的training的方法，它就是gradient descent，它只是一个比较有效率的算法，让你在计算这个gradient的vector的时候更有效率

Chain Rule

Backpropagation里面并没有什么高深的数学，你唯一需要记得的就只有Chain Rule(链式法则)
个人感觉跟微积分里面的链式求导法则差不多

对整个neural network，我们定义了一个loss function： $L(\theta)=\sum\limits_{n=1}^N l^n(\theta)$ ，它等于所有training data的loss之和

我们把training data里任意一个样本点 $x^n$ 代到neural network里面，它会output一个 $y^n$ ，我们把这个output跟样本点本身的label标注的target $\hat{y}^n$ 作cross entropy，这个交叉熵定义了output $y^n$ 和target $\hat{y}^n$ 之间的距离 $l^n(\theta)$ ，如果cross entropy比较大的话，说明output和target之间距离很远，这个network的parameter的loss是比较大的，反之则说明这组parameter是比较好的

然后summation over所有training data的cross entropy $l^n(\theta)$ ，得到total loss $L(\theta)$ ，这就是我们的loss function，用这个 $L(\theta)$ 对某一个参数w做偏微分，表达式如下：
$\frac{\partial L(\theta)}{\partial w}=\sum\limits_{n=1}^N\frac{\partial l^n(\theta)}{\partial w}$
这个表达式告诉我们，只需要考虑如何计算对某一笔data的 $\frac{\partial l^n(\theta)}{\partial w}$ ，再将所有training data的cross entropy对参数w的偏微分累计求和，就可以把total loss对某一个参数w的偏微分给计算出来

我们先考虑某一个neuron，先拿出上图中被红色三角形圈住的neuron，假设只有两个input $x_1,x_2$ ，通过这个neuron，我们先得到 $z=b+w_1 x_1+w_2 x_2$ ，然后经过activation function从这个neuron中output出来，作为后续neuron的input，再经过了非常非常多的事情以后，会得到最终的output $y_1,y_2$

现在的问题是这样： $\frac{\partial l}{\partial w}$ 该怎么算？按照chain rule，可以把它拆分成两项， $\frac{\partial l}{\partial w}=\frac{\partial z}{\partial w} \frac{\partial l}{\partial z}$ ，这两项分别去把它计算出来。前面这一项是比较简单的，后面这一项是比较复杂的

计算前面这一项 $\frac{\partial z}{\partial w}$ 的这个process，我们称之为Forward pass；而计算后面这项 $\frac{\partial l}{\partial z}$ 的process，我们称之为Backward pass

Forward pass

先考虑 $\frac{\partial z}{\partial w}$ 这一项，完全可以秒算出来， $\frac{\partial z}{\partial w_1}=x_1 ,\ \frac{\partial z}{\partial w_2}=x_2$

它的规律是这样的：求 $\frac{\partial z}{\partial w}$ ，就是看w前面连接的input是什么，那微分后的 $\frac{\partial z}{\partial w}$ 值就是什么，因此只要计算出neural network里面每一个neuron的output就可以知道任意的z对w的偏微分