softmax（一）：从梯度的角度分析，softmax与sigmoid在损失函数中的不同

仙女修炼史

已于 2022-05-10 14:33:40 修改

阅读量700

点赞数 1

分类专栏：深度学习算法文章标签：深度学习机器学习逻辑回归

于 2022-05-07 11:50:40 首次发布

本文链接：https://blog.csdn.net/weixin_45209433/article/details/124626493

版权

深度学习算法专栏收录该内容

16 篇文章 1 订阅

订阅专栏

面试的时候讨论过这个问题，我觉得这个问题可以深度思考一下，顺便回顾一下梯度的计算方法

1、softmax+cross_entroy

这里只考虑后面的损失函数，前面的卷积输出，由模拟数据代替，这里 $z_1, z_2,z_3$ 是网络最后一层的输出，这里我给出了虚假数据 $z_1= -1.4694，z_2 = -2.2030，z_3 = 2.4750$ ， $z_1, z_2,z_3$ 经过softmax之后得到概率值 $p_1=0.0188，p_2 = 0.0090，p_3 = 0.9721$ ，得到的概率，在进入到cross_entroy，计算得到loss值，loss的计算公式如下：
$-\sum_i^3{y_i*log(p_i)}$
其中，输入标签y=0类别，因此转换为one_hot y = [1,0,0]
在这里插入图片描述

1.2、softmax+cross_entroy下，计算 $z_i$ 处的梯度值

下图是计算 $z_1， z_2, z_3$ 处的梯度值，梯度计算完，总结下来是：
$\frac{\varphi Loss}{\varphi z_i} = \begin{cases} p_i - 1, & \text {i = y} \\ p_i, & \text{i $\neq$y} \end{cases}$
这里关于梯度值性质的分析，请看这里王峰大神的知乎Softmax理解之二分类与多分类，超级醍醐灌顶，需要反复去看，理解！
在这里插入图片描述

2、sigmoid + binary_cross_entroy

这里我们用三个sigmoid + binary_cross_entroy来替换softmax，输入数据 $z_1= -1.4694，z_2 = -2.2030，z_3 = 2.4750$ 是一样的，经过sigmoid之后，得到的概率，变为 $p_1=0.1870，p_2 = 0.0995，p_3 = 0.9224$ ，binary_cross_entroy的公式为 $- [y * l o g (p) + (1 - y) * l o g (1 - p)]$ ，最后loss的是三个loss求平均值：
$-\frac{1}{3}\sum_i^3{-[y_i*log(p_i)+(1-y_i)*log(1-p_i)]}$
在这里插入图片描述

2.2、sigmoid+binary_cross_entroy下，计算 $z_i$ 处的梯度值

下图是计算 $z_1， z_2, z_3$ 处的梯度值，梯度计算完，总结下来是：
$\frac{\varphi Loss}{\varphi z_i} = \begin{cases} (p_i - 1)/3, & \text {i = y} \\ p_i /3, & \text{i $\neq$y} \end{cases}$
在这里插入图片描述
上面计算时，发现梯度都除以了3，为了和softmax + cross_entroy的梯度做比较，那么我们可以把loss值由平均值改为求和：
$-\sum_i^3{-[y_i*log(p_i)+(1-y_i)*log(1-p_i)]}$

3、两种方式的计算梯度的公式

那么我们计算的sigmoid + binary_cross_entroy的梯度如下：

$\frac{\varphi Loss}{\varphi z_i} = \begin{cases} p_i - 1, & \text {i = y} \\ p_i , & \text{i $\neq$y} \end{cases}$
$\frac{\varphi Loss}{\varphi z_1} = -0.813， \frac{\varphi Loss}{\varphi z_2} = 0.0995， \frac{\varphi Loss}{\varphi z_3} = 0.9224$

我们也得到了softmax + cross_entroy计算的梯度如下：

$\frac{\varphi Loss}{\varphi z_i} = \begin{cases} p_i - 1, & \text {i = y} \\ p_i , & \text{i $\neq$y} \end{cases}$
$\frac{\varphi Loss}{\varphi z_1} = -0.9812， \frac{\varphi Loss}{\varphi z_2} = 0.0090， \frac{\varphi Loss}{\varphi z_3} = 0.9721$

可以看到，两种方法，计算梯度的方式都是一样的，那么唯一影响梯度的值，输入的网络估计值 $z_i$ 是一样的，那么，二者唯一的区别点就是softmax和sigmoid这两个函数了。

3.2、softmax和sigmoid

softmax函数如下：
$\begin{aligned} softmax(z_i) & = \frac{e^{z_i}}{\sum_i^k{e^{z_k}}} \end{aligned}$

sigmoid函数如下：
$sigmoid(z_i) = \frac{1}{1 + e^{-z_i}}$

3.2、两类时，softmax和sigmoid完全等价

当softmax为二类时，softmax公式可以简化为：
$softmax(z_1) = \frac{1}{1 + e^{z_2-z_1}}$
$sigmoid(z_1) = \frac{1}{1 + e^{-z_1}}$

可以看到，二者的不同是在 $z1和z_2-z_1$ ，二者是一种线性变换，-z1完全可以替代z2-z1，完全可以由z1替代，因此，softmax为二类时，softmax和sigmoid是完全相同的。

3.3、两类时，softmax的梯度关系

那么我们来计算一下softmax二分类时的梯度值：
我们知道，不管是softmax还是sigmoid，梯度的计算方式都是一样的，即
$\frac{\varphi Loss}{\varphi z_i} = \begin{cases} p_i - 1, & \text {i = y} \\ p_i , & \text{i $\neq$y} \end{cases}$
当y = [1， 0]

$\frac{\varphi Loss}{\varphi z_1} = p_1 - 1， \frac{\varphi Loss}{\varphi z_2} = p_2$

因为softmax中 $p_2 + p_1 = 1，即 p_2 = 1 - p_1$ ，因此：

$\frac{\varphi Loss}{\varphi z_1} = p_1 - 1， \frac{\varphi Loss}{\varphi z_2} = 1 - p_1$
所以，softmax二分类时 $z_1$ 和 $z_2$ 处的导数是梯度方向相反，幅度相等。

3.4、多类时，softmax其实是多个二分类器的线性组合

请看这里王峰大神的知乎Softmax理解之二分类与多分类

从上面的例子可以得到：

$\frac{\varphi Loss}{\varphi z_1} = -0.9812， \frac{\varphi Loss}{\varphi z_2} = 0.0090， \frac{\varphi Loss}{\varphi z_3} = 0.9721$

发现目标分数 $z_1$ 可以拆分为：
$- 0.9812 = - 0.0090 - 0.9721$

-0.0090与 $z_2$ 处的梯度是一对正负梯度， - 0.9721与 $z_3$ 处的梯度是一对正负梯度，我们上面说过，二分类时， $z_1和z_2$ 处的梯度是正负梯度，因此我们可以这样理解，对于每一个类别，Softmax实际上是训练了C-1个二分类器的线性组合，而这 C-1个二分类器的权重恰好等于非目标概率，那么对于这个类别来说，只需要训练 $\frac{C*(C-1)}{2}$ 个分类器，对于3个类别来说，是三个分类器，即1vs2，2vs3，3vs1。

3.5、多类时，softmax与sigmoid的区别

例如3类时，softmax其实是3个二元分类器的线性组合，即1vs2，2vs3，3vs1。
而3类时，sigmoid也是3个二元分类器，即1vs非1，2vs非2，3vs非3

仙女修炼史

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
softmax（一）：从梯度的角度分析，softmax与sigmoid在损失函数中的不同

面试的时候讨论过这个问题，我觉得这个问题可以深度思考一下，顺便回顾一下梯度的计算方法1、softmax+cross_entroy这里只考虑后面的损失函数，前面的卷积输出，由模拟数据代替，这里z1,z2,z3z_1, z_2,z_3z1,z2,z3是网络最后一层的输出，这里我给出了虚假数据z1=−1.4694，z2=−2.2030，z3=2.4750z_1= -1.4694，z_2 = -2.2030，z_3 = 2.4750z1=−1.4694，z2=−2.2030，z3=2.4750，z1
复制链接

扫一扫