sigmoid函数是如何诞生的(最大熵原理)

这篇博客探讨了sigmoid函数的起源,通过最大熵原理进行深入解析。文章指出,在缺乏先验信息时,条件熵最大的模型是最优的。通过贝叶斯定理和拉格朗日乘子法,逐步推导出sigmoid函数,将其与softmax函数联系起来,揭示了sigmoid在二分类问题中的作用。
摘要由CSDN通过智能技术生成

      由于工作的原因没有在学校里那么多学习的时间,对于很多基础知识纠结好久还是觉得应该记录下来,于是就打开了好多年没用的csdn,开始记录下自己的偶尔的学习过程,希望能以此勉励自己。当然第一篇博客,自然逼格不能低,先来谈谈自己一直很好奇的,大牛们熟的不能再熟的sigmod函数究竟是怎么得来的。

      很多人可能会说,懵的?那你怕是石乐志,其实很多地方都有解释这个函数为什么好,但始终没有给出这个玩意儿到底是怎么出来的。话不多说,先给结论:最大熵原理

      对于最大熵原理,首先给出一个定理:对于概率模型而言,在缺乏先验的情况下,条件熵最大的模型是最好的模型。很好理解,熵最大意味着不确定度最高,在没有先验知识情况下,自然这是最好的假设(注意和决策树中特征选择时的熵区分)

      好,下面开始装逼(推导主要参考了统计学习方法

      首先,明确我们的目标:条件熵最大:

这里上面波浪号可以理解为是联合概率密度和样本特征分布已知(根据样本先验可知)&#x

参考资源链接:[清华大学机器学习课程:Logistic回归与最大熵模型解析](https://wenku.csdn.net/doc/2m1xgyp7kp?utm_source=wenku_answer2doc_content) 在机器学习领域中,Sigmoid函数是Logistic回归中非常关键的一个组成部分,它是一个在(0,1)区间内取值的非线性函数,通常用于将线性回归模型的输出映射为概率值。Sigmoid函数的形式为σ(z) = 1 / (1 + e^(-z)),其中z是线性模型的输出,e是自然对数的底数。当z的值趋向于正无穷时,Sigmoid函数的输出趋近于1;当z的值趋向于负无穷时,输出趋近于0。这种特性使得Sigmoid函数非常适合于二分类问题的模型输出。 Sigmoid函数的作用在于,它可以将任意实数值映射为一个介于0到1之间的值,这代表了概率。在二分类问题中,输出接近1可以解释为属于正类的概率高,而输出接近0则代表属于负类的概率高。 极大似然估计是一种参数估计方法,它通过选择模型参数,使得在给定数据集下观测到的样本出现的概率最大化。在Logistic回归中,通过极大似然估计来估计模型参数θ,目标是最大化似然函数L(θ)。似然函数表示的是在参数θ下观测到的数据的似然程度,等价于求解对数似然函数l(θ)的最大值。具体来说,我们通过求导数并令其为零,可以得到参数θ的估计值。 梯度下降法是一种常用的优化算法,用于求解似然函数的最大值问题。通过迭代更新参数,使得似然函数的值逐步增大,直到达到局部最大值或收敛条件。另一种更为高级的优化算法是拟牛顿法,它通过近似海森矩阵(Hessian matrix)的逆或伪逆来加速参数的更新过程。 了解Sigmoid函数以及如何通过极大似然估计和优化算法来估计Logistic回归模型参数,对于深入理解二分类问题的解决方法至关重要。如果你希望更深入地掌握这些概念和相关算法的实现,我推荐你参阅《清华大学机器学习课程:Logistic回归与最大熵模型解析》。这本课程资料不仅详细解析了Logistic回归的原理和应用,还包括了最大熵模型和相关优化算法的全面讲解。通过学习这些内容,你将能够掌握构建和应用分类模型的核心技能。 参考资源链接:[清华大学机器学习课程:Logistic回归与最大熵模型解析](https://wenku.csdn.net/doc/2m1xgyp7kp?utm_source=wenku_answer2doc_content)
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值