sigmoid函数是如何诞生的（最大熵原理）

最新推荐文章于 2025-03-02 09:19:45 发布

zynash2

最新推荐文章于 2025-03-02 09:19:45 发布

阅读量7.1k

点赞数 10

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zynash2/article/details/79261039

版权

这篇博客探讨了sigmoid函数的起源，通过最大熵原理进行深入解析。文章指出，在缺乏先验信息时，条件熵最大的模型是最优的。通过贝叶斯定理和拉格朗日乘子法，逐步推导出sigmoid函数，将其与softmax函数联系起来，揭示了sigmoid在二分类问题中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

由于工作的原因没有在学校里那么多学习的时间，对于很多基础知识纠结好久还是觉得应该记录下来，于是就打开了好多年没用的csdn，开始记录下自己的偶尔的学习过程，希望能以此勉励自己。当然第一篇博客，自然逼格不能低，先来谈谈自己一直很好奇的，大牛们熟的不能再熟的sigmod函数究竟是怎么得来的。

很多人可能会说，懵的？那你怕是石乐志，其实很多地方都有解释这个函数为什么好，但始终没有给出这个玩意儿到底是怎么出来的。话不多说，先给结论：最大熵原理

对于最大熵原理，首先给出一个定理：对于概率模型而言，在缺乏先验的情况下，条件熵最大的模型是最好的模型。很好理解，熵最大意味着不确定度最高，在没有先验知识情况下，自然这是最好的假设（注意和决策树中特征选择时的熵区分）

好，下面开始装逼（推导主要参考了统计学习方法）

首先，明确我们的目标：条件熵最大：

这里上面波浪号可以理解为是联合概率密度和样本特征分布已知（根据样本先验可知）&#x

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。