计算图中的Sigmoid激活函数的反向传播

最新推荐文章于 2024-06-13 13:54:19 发布

司悟愛帥

最新推荐文章于 2024-06-13 13:54:19 发布

阅读量2.6k

点赞数 2

文章标签：神经网络机器学习

本文链接：https://blog.csdn.net/weixin_44062677/article/details/114729967

版权

前言

激活函数是神经网络中必不可少的一个环节，它将输入和输出通过函数映射关联起来，激活函数是非线性函数，例如Relu函数、Sigmoid函数、Tanh函数。

提示：以下是本篇文章正文内容，有些许内容及图片借鉴于《深度学习入门：基于python的理论与实现》，基于自己的理解进行转述。

激活函数是神经网络中必不可少的一个环节，它将输入和输出通过函数映射关联起来，激活函数是非线性函数，例如Relu函数、Sigmoid函数、Tanh函数。

单个神经元结构的输入输出映射示意图如下：

在这里插入图片描述

3输入-2输出的2层神经网络的输入输出映射：

在这里插入图片描述

Sgmoid激活函数表达式：

${\rm{y}} = \frac{1}{{1 + {e^{ - x}}}}$

引入激活函数的意义在于引入非线性，若无激活函数或者说激活函数为线性函数，无论多复杂的神经网络结构，最终都能化简成线性的输入输出映射结构：形似下列计算

$a (b (c X + d) + e) + f = a b c X + a b d + a e + f$

本文讨论在计算图法中Sigmoid函数的反向传播图

在这里插入图片描述

其中存在’ / ‘ 和’ + ‘以及 ${e^x}$ 和’ × ‘节点，共同组成sigmoid层，在此我们只关心sigmoid层的正向传播的输入与输出以及反向传播的输入与输出，所以最终sigmoid层也将化简成一个节点的形式。

正向传播的数据流动都比较简单，在此不再讨论，仅讨论反向传播。

对于’ / ’节点：以数据反向传播为正方向，上游对下游求导（最终结果要化简成以y为变量的式子）乘以上游值。即：’ / '节点表示： $\frac{1}{x}$ 求导得 $\frac{{\partial y}}{{\partial x}} = - \frac{1}{{{x^2}}} = - y^2$ ，再乘以上游值（ $\frac{{\partial L}}{{\partial y}}$ ）可得 $\frac{{\partial L}}{{\partial y}}{y^2}$
对于’ + ‘节点：上游值直接传播至下游
对于 ${e^x}$ 节点：同样是节点函数求导（最终结果要化简成以y为变量的式子）乘以上游值。即：节点函数 $y = {e^x}$ 。
求导得： $\frac{{\partial y}}{{\partial x}} = {e^x} = y$ （y即正向传播的输出值），所以在此sigmoid函数层中的 ${e^x}$ 节点的正向传播输出值为 $y = {e^{ - x}}$ ，所以 ${e^x}$ 节点反向传播的输出值为 $\frac{{\partial L}}{{\partial y}}{y^2}{e^{ - x}}$
对于’ × ‘节点：这里我们考虑 $z = x y$ 。乘法的反向传播会将上游的值乘以正向传播时的输入信号的“翻转值”后传递给下游。翻转值表示一种翻转关系，正向传播时信号是x的话，反向传播时则是y；正向传播时信号是y 的话，反向传播时则是x。

$\frac{{\partial z}}{{\partial x}} = y,\frac{{\partial z}}{{\partial y}} = x$

所以“×”节点将正向传播时的值翻转后做乘法运算。因此，这里要乘以−1。

在这里插入图片描述

需动手去化简，利用下式化简成以y为变量：
$\frac{1}{{1 + {e^{ - x}}}}$

理解计算图法中反向传播计算的重点在于对函数求导后对式子的化简，要将正向传播时的输出量作为反向传播的输入量，即在函数求导后将导函数化简成以y为变量的函数，最终再将正向传播的输出值代入，就可得反向传播的输出值。

求解计算图法中反向传播的目的在于计算结果的偏差对于前面各项参数的影响大小，应用于BP算法中对神经网络中的权重进行调整。当计算结果与真实结果不符，通过反向传播计算，可指导如何调节权重参数，以期结果符合预期。

关注