【深度学习】网络训练原理：前向传播+反向传播

最新推荐文章于 2024-01-18 02:08:26 发布

Lies.

最新推荐文章于 2024-01-18 02:08:26 发布

阅读量1.2k

点赞数 6

分类专栏：深度学习文章标签：深度学习机器学习人工智能

本文链接：https://blog.csdn.net/weixin_46564151/article/details/129641940

版权

深度学习专栏收录该内容

5 篇文章 1 订阅

订阅专栏

前向传播

前向传播简单理解就是：将上一层的输出作为下一层的输入，并计算下一层的输出，一直到运算到输出层为止。即网络从输入得到最终输出结果的过程

在这里插入图片描述

如上图所示：

输入为 $X=\begin{bmatrix}x_1\\x_2\end{bmatrix}=\begin{bmatrix}1\\0.5\end{bmatrix}$
初始化的各个权重分别为 $W_1=\begin{bmatrix}w_1&w_3\\w_2&w_4\end{bmatrix}=\begin{bmatrix}0.5&2.3\\1.5&3\end{bmatrix},W_2=\begin{bmatrix}w_5\\w_6\end{bmatrix}=\begin{bmatrix}1\\1\end{bmatrix}$

那么就有：

经过第一个全连接层得到hidden layer的值为 $H=\begin{bmatrix}h_1\\h_2\end{bmatrix}=W_1^\top X=\begin{bmatrix}0.5&1.5\\2.3&3\end{bmatrix}\begin{bmatrix}1\\0.5\end{bmatrix}=\begin{bmatrix}1.25\\3.8\end{bmatrix}$
经过第二个全连接层得到输出值为 $y=W_2^\top H=\begin{bmatrix}1&1\end{bmatrix}\begin{bmatrix}1.25\\3.8\end{bmatrix}=5.05$

上述的过程就是前向传播过程，前向传播得到输出，反向传播得到梯度

反向传播

首先考虑我们的梯度下降过程：

$\theta_j=\theta_j-\alpha\cdot \frac{\partial L(\theta_0,\theta_1,\cdots,\theta_n)}{\partial \theta_j}$

最核心部分就是计算 $\frac{\partial L(\theta)}{\partial \theta}$ ，其中的 $L(\theta)$ 是利用一组样本计算出的损失（如果单独使用一个样本则可能出现噪声影响，因此用一组来尽量得到梯度的正确方向），那么上面这个公式就意味着，我们需要登所有样本都跑出预测结果，才能求梯度对参数进行更新，这显然是不能接受的

而在之前的内容中有提到过，我们使用 $C(y,\hat y)$ 衡量预测结果和真实结果之间的差距，注意， $C$ 是针对一个样本的。那么当我们用包含 $m$ 个样本的训练集去进行梯度下降时，实际就是：

$\frac{\partial L(\theta)}{\partial \theta}=\sum_{i=1}^m\frac{\partial C(y_i,\hat y_i)}{\partial\theta}$

这样我们就把针对整体的梯度转化为了针对每个样本的梯度之和，进一步的，也对梯度下降的过程针对每个样本进行分解：

每有一个样本通过网络得到预测结果，我们都可以计算出 $\frac{\partial C(y_i,\hat y_i)}{\partial\theta}$ ，然后直接对所有参数都进行一次更新： $\theta_j=\theta_j-\alpha\cdot \frac{\partial C(y_i,\hat y_i)}{\partial\theta_j}$ ，称为 “一步”更新
当所有样本都结束后视作 “一轮”迭代完成，然后再进行下一轮的迭代

至此，我们就不需要保存所有样本的预测值直到最后才计算梯度更新参数了，而是每通过一个样本就更新一次，节约了存储空间

有了以上的铺垫，我们的主角反向传播就可以出场了

我们知道，在深度学习中往往 $C(y_i,\hat y_i)$ 的表达式十分复杂，甚至有可能中间经过多个激活函数后并不连续可微，这样就无法利用代数方法简单的求出 $\frac{\partial C(y_i,\hat y_i)}{\partial\theta_j}$

而反向传播就是用来计算“一步更新”中的梯度的，它将求导的繁重任务分发给一步更新中的各个计算单元，让我们可以很方便的求出复杂函数针对某个变量的梯度，其核心是链式法则：

考虑一个最简单的情况， $y = g (x), z = h (y)$ ，那么 $x$ 变化会导致 $y$ 变化进而也会导致 $z$ 变化，那么我们在计算 $z$ 对 $x$ 和 $y$ 的梯度时，可以比较容易的计算出 $\frac{dz}{dy},\frac{dy}{dx}$ ，因为它们是直接联系的，或者换种说法，他们的函数关系式是显式给出的，梯度可以直接用代数方法求导得出

而当我们想求 $\frac{dz}{dx}$ 时，我们就发现 $z$ 和 $x$ 之间的函数关系并没有显式给出，而是以复合函数 $z=h\bigl(g(x)\bigr)$ 形式出现，当 $g (x)$ 和 $h (y)$ 的表达式都非常复杂时（例如经过了某个非线性激活函数），直接求 $z$ 和 $x$ 之间的函数关系再求导是非常困难的，此时就需要用到导数链式法则（高数内容）：

$\frac{dz}{dx}=\frac{dz}{dy}\cdot\frac{dy}{dx}$

所以我们只需要在每一步中关注每个计算单元的求梯度过程，就能在利用链式法则求出所有参数在一步中的梯度，从而进行参数更新

再以一开始的前向传播结果为例，反向传播就是利用链式法则得到各个参数的梯度值：

在这里插入图片描述

通过前向传播从input layer到output layer方向得到各层的输出值后，再从output layer返回input layer进行反向传播，具体步骤为：

通过前向传播得到的输出 $y$ 和output layer的输入 $w_5,w_6,h_1,h_2$ 可以分别求出 $\frac{\partial y}{\partial w_5},\frac{\partial y}{\partial w_6},\frac{\partial y}{\partial h_1},\frac{\partial y}{\partial h_2}$ ，更新参数 $w_5,w_6$ 后，将这些梯度值作为输入传给hidden layer

对于某层来说，输入、输出和参数都是已知量，配合pytorch代码理解更佳
hidden layer接收输入 $\frac{\partial y}{\partial w_5},\frac{\partial y}{\partial w_6},\frac{\partial y}{\partial h_1},\frac{\partial y}{\partial h_2}$ ，再配合其前向传播时得到的 $w_1,w_2,w_3,w_4,x_1,x_2$ ，可以分别求出 $\frac{\partial y}{\partial w_1},\frac{\partial y}{\partial w_2},\frac{\partial y}{\partial w_3},\frac{\partial y}{\partial w_4}$ ，更新参数 $w_1,w_2,w_3,w_4$ 后，将这些梯度作为输入传给input layer

这里其实也可以求出 $\frac{\partial y}{\partial x_1},\frac{\partial y}{\partial x_2}$ ，因为这两个值并没有用（不需要对输入进行更新），所以没写上去
input layer不需要求梯度和更新参数，反向传播结束