softmax-sigmoid辨析

zcg1942

已于 2024-04-26 15:53:27 修改

阅读量669

点赞数

分类专栏：算法文章标签：算法

于 2021-01-20 15:49:53 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zcg1942/article/details/108560914

版权

算法专栏收录该内容

46 篇文章 2 订阅

订阅专栏

事物的本质不在于其外在形态,而在于其内在实质。" -亚里士多德

有很多概念纷繁复杂，放在一起统一的看待，会发现他们是同源的，这样理解更加深刻，记忆也会更加深刻。千万不能“着相”

softmax和sigmoid，在二分类的时候显然是一样的：

$softmax(x_1)=\frac{e^{x_1}}{e^{x_1}+e^{x_2}}=\frac{1}{1+e^{x_2-x_1}}$

$sigmoid(x_1)=\frac{1}{1+e^{-x_1}}$

可以看到，二者的输出形式都是一样的，求导的特点也是一样的。sigmoid其实可以看作是softmax在类别N等于2时的一个特例。

因为模拟神经元的受刺激与受抑制就属于二分类问题，所以sigmoid不仅用于分类网络的最后一层，也常用于隐藏层中的神经元连接处。

那么接下来看二者分别是怎么来的：

重新发明Sigmoid

表面上看，是sigmoid把线性回归的结果转换为了分类概率，sigmoid是一个性质更好的“阶跃”函数，但这样的sigmoid来得仿佛无衣无据。从“重新发明”的角度出发，实际上是先有了对数几率函数，把离散的概率分布连续化，然后再使用线性组合去拟合对数几率函数。这样同时也解释了为什么回归可以用于分类。

而sigmoid本身的一些优点，如求导简单， $S'(x)=S(x)*(1-S(x))$ ，只是意外之喜，而不是使用它的关键。因为sigmoid本身也有一些缺点，如梯度饱和，最大值是0.25，层层传递可能梯度消失；也不是zero-centered。这时就需要relu等不同的激活函数。所以，使用不同的激活函数也可以理解为线性回归拟合不同的目标。

重新发明逻辑回归

对数几率的引入，解决连续性的同时，也把分布变成了线性的，可以使用线性回归拟合。此时线性回归拟合的线就是“边界线”：

同理，sigmoid也让线性回归有了非线性能力，一起组合成了逻辑回归logistic regression。

线性回归常用的损失函数是MSE，但逻辑回归因为使用了sigmoid，此时再使用MSE的话就不再是凸函数了：

这也是为什么分类中为什么不使用MSE的原因。

重新发明交叉熵

为了在标签取0和1的时候都有单调下降的损失函数，所以使用了分段函数：

用一个公式统一混合函数：

已经可以看到交叉熵的雏形了。

机器学习之对数几率回归(Logistic Regression) - 知乎

【机器学习基础】对数几率回归（logistic回归）-CSDN博客

重新发明softmax

毕竟sigmoid作用于二分类，只关心一个值就可以。那么多分类怎么办呢？

既然概率的比值是e指数的形式，可以直接假设每个头预测结果在e指数后就是概率，要做的只是归一化就可以了。我们来看softmax的概率计算：

$S_i=\frac{e^i}{\sum_je^j}$

对于e指数带来的溢出问题，可以分子分母同除以 $e^{i_{max}}$ 解决。

二分类器可以实现多分类吗，当然可以。根据怎么划分，有两种策略：

负样本是所有其他类别，负样本是另外一种（需要n(n-1)/2个二分类器）。

参考

https://www.cnblogs.com/alexanderkun/p/8098781.html

https://www.cnblogs.com/jiashun/p/doubles.html

逻辑回归(logistic regression)的本质——极大似然估计_逻辑回归极大似然估计推导-CSDN博客

安全验证 - 知乎

softmax算法为什么采用softmax function作为每一个类别的概率？ - 知乎

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
softmax-sigmoid辨析

指数分布族https://www.zhihu.com/question/29435973
复制链接

扫一扫

专栏目录

zcg1942 CSDN认证博客专家 CSDN认证企业博客

码龄7年

100: 原创

5万+: 周排名

1万+: 总排名

26万+: 访问

: 等级

3511: 积分

357: 粉丝

477: 获赞

53: 评论

1060: 收藏

私信

关注

热门文章

分类专栏

树 1篇
PPT 1篇
读书笔记 32篇
知乎 4篇
图像处理 55篇
身边的科技 2篇
算法 46篇
编程 17篇
CNN 18篇

最新评论

颜色的表示和还原（一）
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。
深度学习中的信息论——交叉熵
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)提升标题与正文的相关性。
安卓交叉编译——ndk
ha_lydms: 牛牛牛！太全面了，以后要用，忘记了直接来这里找表情包
论文阅读——MIRNet
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
成像到sensor前发生了什么——坐标和畸变
CSDN-Ada助手: 数码相机的光学变焦和数字变焦有什么区别？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。