darknet中反向传播原理（l.delta究竟在计算什么）

最新推荐文章于 2024-08-13 17:09:23 发布

仙女修炼史

最新推荐文章于 2024-08-13 17:09:23 发布

阅读量1k

点赞数 2

分类专栏：目标检测文章标签：神经网络

本文链接：https://blog.csdn.net/weixin_45209433/article/details/107974655

版权

目标检测专栏收录该内容

26 篇文章 4 订阅

订阅专栏

看darkent的网络框架的小伙伴们，有没有发现其与caffe，pytorch的不同，有没有发现里面没有计算loss的代码，嗯嗯嗯？？？？，forward函数一直在计算l.delta，backward函数也是和l.delta有关系的，看l.delta的计算方式，怎么看都不像是loss的公式，那么，l.delta究竟是什么，搞明白这个问题需要了解反向传播的原理，由于pytorch已经将反向传播完全自动化，即使你将反向传播当作一个黑匣子来看，也不影响你在工作中对网络的训练和测试，可是只知其然不知其所以然的感觉还是很难受的，这种理论的缺失，会在理解某些论文，以及后面的前进的道路上限制我们的发展，俗话说，积累的东西，总是在不经意间发挥作用，厚积薄发么。

一、反向传播

内容来自《Neural Networks and Deep Learning》，不懂的请自行阅读该书籍。
反向传播的核心是立即损失函数 $C$ 针对权重 $w$ 或者偏置 $b$ 的偏导数 $\frac{\partial C}{\partial w}$ ，这个偏导数告诉我们，当改变权重 $w$ 时，这种改变是如何快速的影响损失函数。每层的卷积层都自己的权重 $w$ ，并且该层的权重 $w$ 由是多维元素组成的，如何取求每个权重元素关于 $C$ 的偏导数呢。
首先我们要定义一些符号，帮助我们更好的使用公式推倒反向传播， $w^l_{jk}$ 表示将第 $l － 1$ 层的第 $k$ 个神经元与第 $l$ 层的第 $j$ 个神经元相连接的权重，例如下图：
在这里插入图片描述
同样的道理，偏值 $b^l_j$ 表示第 $l$ 层的第 $j$ 个神经元，使用 $a^l_j$ 表示第 $l$ 层的第 $j$ 个激活值，示意图如下：
那么某个激活函数值计算方式：
$z^l_j = \sum_k w^l_{jk}a^{l-1}_k + b^l_j$ 　　　
$a^l_j = \sigma(z^l_j)$
其实，反向传播计算的就是 $\frac{\partial C}{\partial w^l_{jk}}$ 和 $\frac{\partial C}{\partial b^l_{j}}$ ，但是这个公式很复杂，因此引入了中间变量delta $\delta^l_j$ ，可以看作是第 $l$ 层的第 $j$ 个神经元的错误，反向传播将先计算 $\delta^l_j$ ，然后 $\frac{\partial C}{\partial w^l_{jk}}$ 和 $\frac{\partial C}{\partial b^l_{j}}$ 都是和 $\delta^l_j$ 相关，我们定义下面：
$\delta^l_j = \frac{\partial C}{\partial z^l_{j}}$
接下来，我们将利用求导的链式法则，来探索 $\delta^l_j$ 与 $\frac{\partial C}{\partial w^l_{jk}}$ 和 $\frac{\partial C}{\partial b^l_{j}}$ 的关系：
公式一：
$\begin{aligned} \delta^l_j &= \frac{\partial C}{\partial z^l_{j}} \\ &=\sum_k \frac{\partial C}{\partial a^l_{k}} \frac{\partial a^l_{k}}{\partial z^l_{j}}, 其中由a^l_j = \sigma(z^l_j)可知z^l_{j}只与a^l_{j}有关系 \\ &=\frac{\partial C}{\partial a^l_{j}} \frac{\partial a^l_{j}}{\partial z^l_{j}} \\ &= \frac{\partial C}{\partial a^l_{j}} \sigma'( z^l_{j}) (1) \end{aligned}$
公式二：
注：其中l+1层是l层的线性组合，因此，l+1层的每个输入都与 $z^l_{j}$ 有关系
$\begin{aligned} \delta^l_j &= \frac{\partial C}{\partial z^l_{j}} \\ &=\sum_k \frac{\partial C}{\partial z^{l+1}_{k}} \frac{\partial z^{l+1}_{k}}{\partial z^l_{j}}\\ \end{aligned}$
由于 $z^{l+1}_{k} = \sum_m w^l_{km}a^{l}_m + b^l_k=\sum_m w^l_{km}\sigma(z^{l}_m )+ b^l_k$ ，因此在 $z^{l+1}_{k}$ 的组成部分中（l层神经元输出的线性组合），只有当m=j的那个部分是和 $z^{l}_{j}$ 有关系的，因此下面的公式可以变为：
$\begin{aligned} \delta^l_j &= \sum_k\delta^{l+1}_kw_{kj}\sigma'(z^l_{j}) (2) \end{aligned}$
公式三：
由 $z^l_j =\sum_k w^l_{jk}a^{l-1}_k + b^l_j$ 可知：
$\begin{aligned} \frac{\partial C}{\partial b^l_{j}} &= \sum_k\frac{\partial C}{\partial z^l_{k}} \frac{\partial z^l_{k}}{\partial b^l_{j}} , 其中 b^l_{j}只与z^l_{j}有关系 \\ &= \frac{\partial C}{\partial z^l_{j}} \frac{\partial z^l_{j}}{\partial b^l_{j}},\\ &=\delta^l_j (3) \end{aligned}$
公式四：
由 $z^l_j =\sum_k w^l_{jk}a^{l-1}_k + b^l_j$ 可知：
$\begin{aligned} \frac{\partial C}{\partial w^l_{jk}}&=\frac{\partial C}{\partial z^l_{j}} \frac{\partial z^l_{j}}{\partial w^l_{jk}} \\ &=\delta^l_j \frac{\partial z^l_{j}}{\partial w^l_{jk}} \\ &=\delta^l_j a^{l-1}_k (4) \end{aligned}$

二、yolo_layer.c中objectness位置的l.delta的推倒

对于objectness_score位置的预测，作者采用的是logistic regression（逻辑回归）,正样本向1逼近，负样本向0逼近，逻辑回归层的图如下：
在这里插入图片描述
逻辑回归的损失函数Ｃ为：
$\qquad其中a = \frac{1}{1+e^{-z}}$
下面是C关于z的导数计算公式，其中：
$\frac{e^{-z}}{(1+e^z)} \quad and \quad \frac{\partial a}{\partial z} =- \frac{e^{-z}}{(1+e^z)^2}= -a(1-a)$
$\begin{aligned} \frac{\partial C}{\partial z} &= -\frac{y}{a} \frac{\partial a}{\partial z} + \frac{1-y}{1-a}\frac{\partial a}{\partial z} \\ &=-\frac{y}{a} a(a-1) + \frac{1-y}{1-a}a (a-1) \\ &= y(1-a) - (1-y)a \\ &= y -ya - a + ya\\ &= y - a \end{aligned}$
$\frac{\partial C}{\partial z} = 1 - a , 当label = 1时$
$\frac{\partial C}{\partial z} = 0 - a , 当label = 0时$

在yolo_layer.c的代码中我们发现：
l.delta[objectness] = 1 - pred_objectness_score， anchor框为正样本
l.delta[objectness] = 0 - pred_objectness_score， anchor框为负样本
l.delta[objectness] = 0 ， anchor框不参与训练

yolo_layer.c是最后一层，先求出该层的 $\delta$ ，根据公式(2)，计算出下一层的 $\delta$ ，然后再去计算该层权重和偏值的偏导数，你取看darknet的backward函数，会发现，即使根据这些公式来的，具体的请自己将代码与公式结合进行理解。