Neural Networks and Deep Learning学习笔记ch2 - 反向传播

最新推荐文章于 2024-08-15 09:37:39 发布

蜗牛一步一步往上爬

最新推荐文章于 2024-08-15 09:37:39 发布

阅读量2.4k

点赞数 2

分类专栏： machine learning 文章标签：神经网络深度学习

本文链接：https://blog.csdn.net/yc461515457/article/details/50499515

版权

本文详细解析神经网络中的反向传播算法，包括代价函数的假设、反向传播的四个关键等式，以及如何计算权重和偏置的导数。反向传播通过逐层计算误差，有效地更新网络参数，是现代深度学习模型训练的核心部分。

摘要由CSDN通过智能技术生成

在上一节中简单介绍了神经网络的结够和sigmoid neuro，以及神经网络的目标函数和学习方法。但是没有讲如何调整权重，通常是需要对目标函数求导，也就是说回避了对目标函数求导这个问题。这一节就将讲述这个问题。

关于代价函数的两个假设

反向传播算法的目标是计算代价函数对 $w,b$ 的偏微分 $\frac{\partial C}{ \partial w}$ 和 $\frac{\partial C}{ \partial b}$ 。这里拿二次代价函数为例子，二次代价函数形式如下：
$C = \frac{1}{2n} \sum_x{||y(x)-a^L(x)||^2}$
这里，n是总的训练数据的对数，x是输入数据，y(x)是对应的期望的输出，L表示神经网络的层数， $a^L(x)$ 是当输入为x时输出层的激活函数的输出。

假设1

代价函数可以表示为总代价在每一个训练数据对上的平均代价。这样做就可以对每一个训练数据都对代价函数进行求导，在训练的时候是对每一个训练数据，每一次训练就可以调整一次权值。当前还一个好处就可以让代价和训练数据的数量无关。

假设2

代价函数可以写成神经网络的输出的函数。
这里写图片描述
比如，对于上面说到的二次代价函数，对每一个输入 $x$
$C = \frac{1}{2n} \sum_x{||y-a^L||^2}=\frac{1}{2}sum_j(y_j-a_j^L)^2$

反向传播的四个等式

反向传播主要涉及到计算代价函数的偏微分，对每一个系数的微分， $\frac{\partial C}{ \partial w_{jk}^l}$ 和 $\frac{\partial C}{ \partial b_j^l}$ 。为了计算这些偏微分，首先引入一个变量 $\delta_j^l$ ，该变量表示第 $l$ 层的第 $j$ 个神经元的误差。我们定义误差为： $\delta_j^l = \frac{\partial C}{\partial z_j^l}$ 。