网络训练和推理过程-CSDN博客

本文链接：https://blog.csdn.net/weixin_50890461/article/details/141967028

训练过程：目的是更新权值

训练过程是为了更新权值，以达到最小化预测值和真实值之间的差异。

前向传播（Forward Propagation）:

将数据输入网络计算输出值（模型的预测值）

输入数据 $A_m^{\left(l-1\right)}$ ，初始化的权值 $W$ 和初始化的偏置 $b$ 计算得到输出特征图 $A_k^{\left(l\right)}$ ，即预测值

反向传播（Backward Propagation）

1. 步骤一：计算损失（Loss Calculation）计算输出值（模型的预测值）和实际值之间的损失（差异）

通过预测值 ${A_k}$ 和真实标签 $y$ 计算得到：损失值 $L$

2. 步骤二：计算输出梯度（误差）：

损失函数 $(L)$ 对输出特征图 $(A_k^{\left(l\right)})$ 的梯度为

$\delta A_k^{\left(l\right)}=\frac{\partial L}{\partial A_k^{\left(l\right)}}$

3. 步骤三：计算损失对每个权值的梯度（weight gradient）

权值 $(W_{k,m}^{\left(l\right)})$ 的梯度 $(\frac{\partial L}{\partial W_{k,m}^{\left(l\right)}})$ ，通过卷积输入 $(A_m^{\left(l-1\right)})$ 和输出梯度 $(\delta A_k^{\left(l\right)})$ 得到。

对于权值的每个位置，权值梯度计算公式是：

$\frac{\partial L}{\partial W_{k,m}^{\left(l\right)}}=\delta A_k^{\left(l\right)}\ast A_m^{\left(l-1\right)}$
这里， $(\ast)$ 表示卷积操作。将输入特征图梯度 $\delta A_k^{\left(l\right)}$ 与输出误差 $A_m^{\left(l-1\right)}$ 进行卷积来计算权重的梯度 $\frac{\partial L}{\partial W_{k,m}^{\left(l\right)}}$ 。

4. 步骤四：计算输入梯度（data gradient）

为了更新前一层的权重，我们还需要计算损失函数对输入特征图的梯度（即前一层的误差）：

$\delta\ A_m^{\left(l-1\right)}=\sum_{k} W_{k,m}^{\left(l\right)}\ast\delta A_k^{\left(l\right)}$
这里， $(\ast)$ 表示卷积操作。表示在反向传播时，卷积核 $W_{k,m}^{\left(l\right)}$ 和输出梯度 $\delta A_k^{\left(l\right)}$ 的卷积结果，这将传递到前一层，更新输入特征图的梯度 $\delta\ A_m^{\left(l-1\right)}$ 。