softmax、以及与sigmoid的比较

最新推荐文章于 2024-09-13 08:27:54 发布

小陈要加油！

最新推荐文章于 2024-09-13 08:27:54 发布

阅读量590

点赞数

分类专栏：深度学习基础文章标签：深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44059001/article/details/120730495

版权

深度学习基础专栏收录该内容

1 篇文章 0 订阅

订阅专栏

softmax是用于多分类的激活函数，它将神经网络的输出转换为概率分布，使得所有输出的概率和为1。与sigmoid不同，softmax的输出相互关联，适合处理多个可能的输出。在反向传播中，softmax与交叉熵损失函数结合，简化了梯度计算，尤其在只需要预测一个结果的情况下。softmax的优势在于直接提供了每个类别的概率，便于比较和选择最可能的类别。

摘要由CSDN通过智能技术生成

softmax是什么？

softmax用于多分类过程中，将多个神经元的输出，映射到(0,1)范围内，且这些映射值的总和为1，相当于概率值。

假设某神经网络输出层 $V$ ，共有 $j$ 个元素，其中第i个元素值为 $V_{i}$ ，则该元素对应的softmax值为：

$S_{i}=\frac{e^{V_i}}{\sum_{j}^{}e^{V_j}}$

softmax与sigmoid的区别：

sigmoid函数会分别处理各个原始输出值，因此其结果相互独立，概率总和不一定为1

softmax函数的输出值相互关联，其概率的总和始终为1，因此，在softmax函数中，为增大某一类别的概率，其他类别的概率必须相应减少

所以当预测结果同时有多种可能时，例如胸片诊断、恶评分析，就应该选择sigmoid函数放在输出层

softmax层有什么优势？

默认选取交叉熵函数为损失函数：

$Loss=-\sum_{i}^{}y_iloga_i$

反向传播梯度求导，需要把softmax的值求导传回去，乍看上去这个公式很繁杂，但其实在多分类场景中，只需要预测一个结果，因此对于每一条输入，真实的输出 $y_i$ 只有一个节点为1，其余为0；这里假设第j个节点真实值为1，其余为0，对应的loss公式就可以简化为：

$Loss=-y_jloga_j$

$y_j$ 为真实值，取1:

$Loss=-loga_j$

接下来是将损失值用链式法则前向求导：

关键这里分两种情况：

一种是j=i，也就是loss对真实值为1的节点求偏导
另一种是j!=i，也就是loss对真实值为0的节点求偏导

乘上Loss对 $a_j$ 的偏导 $-\frac{1}{a_j}$ ，得到 $a_j-1$

乘上Loss对 $a_j$ 的偏导 $-\frac{1}{a_j}$ ，得到 $a_j$

再乘上已知的 $O_j$ 就完成了梯度计算，下一步就可以更新权重值了

参考链接：

Softmax 原理及 Sigmoid和Softmax用于分类的区别 - Jerry_Jin - 博客园

Softmax 函数的特点和作用是什么？ - 知乎

小陈要加油！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。