花书+吴恩达深度学习（三）反向传播算法 Back Propagation

最新推荐文章于 2023-04-13 08:30:00 发布

I can丶

最新推荐文章于 2023-04-13 08:30:00 发布

阅读量2k

点赞数 9

分类专栏：深度学习文章标签：机器学习深度学习神经网络反向传播梯度下降

本文链接：https://blog.csdn.net/zhq9695/article/details/84452293

版权

本文通过逐步解析，从Logistic Regression出发，深入讲解两层神经网络中的反向传播算法，包括单个样本和多个样本的情况。内容涵盖梯度计算、参数更新，帮助理解深度学习中的Back Propagation。

摘要由CSDN通过智能技术生成

如果这篇文章对你有一点小小的帮助，请给个关注，点个赞喔~我会非常开心的~

花书+吴恩达深度学习（一）前馈神经网络（多层感知机 MLP）

花书+吴恩达深度学习（二）非线性激活函数（ReLU, maxout, sigmoid, tanh）

花书+吴恩达深度学习（三）反向传播算法 Back Propagation

花书+吴恩达深度学习（四）多分类 softmax

0. 前言

在神经网络中，通过前向传播，将线性拟合和非线性激活的计算结果传递至最后一层 $\hat{y}$ 。

然后通过反向传播，从最后一层进行梯度计算，每一层使用到了后面一层的计算结果对各自的参数进行修改，直到输入层。

本篇文章通过几个例子层层递进，理解反向传播算法。

1. 从 Logistic Regression 中理解反向传播

如下图所示，为单个样本通过 LR 单元：

其中，样本有两个特征，前向传播通过线性单元和非线性激活函数 sigmoid ，得出结果，然后计算损失函数。

损失函数采用：

$\mathfrak{L}(a,y)=y\log(a)+(1-y)\log(1-a)$

在反向传播中，首先对最后一层的输出计算梯度：

$\frac{\mathrm{d} \mathfrak{L}}{\mathrm{d} a}= -\frac{y}{a}+\frac{1-y}{1-a}$

其次，对倒数第二层的输出计算梯度：

$\frac{\mathrm{d} \mathfrak{L}}{\mathrm{d} z}=\frac{\mathrm{d} \mathfrak{L}}{\mathrm{d} a}\frac{\mathrm{d} a}{\mathrm{d} z}=(-\frac{y}{a}+\frac{1-y}{1-a})\cdot a(1-a)=a-y$

然后，求出了对的梯度之后，可以计算对参数的梯度：

$\begin{align*} & \frac{\partial \mathfrak{L}}{\partial w_j}=\frac{\mathrm{d} \mathfrak{L}}{\mathrm{d} z}\frac{\partial z}{\partial w_j}=(a-y)x_j \\ & \frac{\partial \mathfrak{L}}{\partial b}=\frac{\mathrm{d} \mathfrak{L}}{\mathrm{d} z}\frac{\partial z}{\partial b}=(a-y) \end{align*}$