softmax-sigmoid辨析

事物的本质不在于其外在形态,而在于其内在实质。" -亚里士多德

有很多概念纷繁复杂,放在一起统一的看待,会发现他们是同源的,这样理解更加深刻,记忆也会更加深刻。千万不能“着相”

softmax和sigmoid,在二分类的时候显然是一样的:

softmax(x_1)=\frac{e^{x_1}}{e^{x_1}+e^{x_2}}=\frac{1}{1+e^{x_2-x_1}}

sigmoid(x_1)=\frac{1}{1+e^{-x_1}}

可以看到,二者的输出形式都是一样的,求导的特点也是一样的。sigmoid其实可以看作是softmax在类别N等于2时的一个特例。

因为模拟神经元的受刺激与受抑制就属于二分类问题,所以sigmoid不仅用于分类网络的最后一层,也常用于隐藏层中的神经元连接处。

那么接下来看二者分别是怎么来的:

重新发明Sigmoid

表面上看,是sigmoid把线性回归的结果转换为了分类概率,sigmoid是一个性质更好的“阶跃”函数,但这样的sigmoid来得仿佛无衣无据。从“重新发明”的角度出发,实际上是先有了对数几率函数,把离散的概率分布连续化,然后再使用线性组合去拟合对数几率函数。这样同时也解释了为什么回归可以用于分类。

而sigmoid本身的一些优点,如求导简单,S'(x)=S(x)*(1-S(x)),只是意外之喜,而不是使用它的关键。因为sigmoid本身也有一些缺点,如梯度饱和,最大值是0.25,层层传递可能梯度消失;也不是zero-centered。这时就需要relu等不同的激活函数。所以,使用不同的激活函数也可以理解为线性回归拟合不同的目标。

重新发明逻辑回归

对数几率的引入,解决连续性的同时,也把分布变成了线性的,可以使用线性回归拟合。此时线性回归拟合的线就是“边界线”:

同理,sigmoid也让线性回归有了非线性能力,一起组合成了逻辑回归logistic regression。

线性回归常用的损失函数是MSE,但逻辑回归因为使用了sigmoid,此时再使用MSE的话就不再是凸函数了:

这也是为什么分类中为什么不使用MSE的原因。

重新发明交叉熵

为了在标签取0和1的时候都有单调下降的损失函数,所以使用了分段函数:

用一个公式统一混合函数:

已经可以看到交叉熵的雏形了。



机器学习之对数几率回归(Logistic Regression) - 知乎

【机器学习基础】对数几率回归(logistic回归)-CSDN博客

重新发明softmax

毕竟sigmoid作用于二分类,只关心一个值就可以。那么多分类怎么办呢?

既然概率的比值是e指数的形式,可以直接假设每个头预测结果在e指数后就是概率,要做的只是归一化就可以了。我们来看softmax的概率计算:

S_i=\frac{e^i}{\sum_je^j}

对于e指数带来的溢出问题,可以分子分母同除以e^{i_{max}}解决。

二分类器可以实现多分类吗,当然可以。根据怎么划分,有两种策略:

负样本是所有其他类别,负样本是另外一种(需要n(n-1)/2个二分类器)。

参考

https://www.cnblogs.com/alexanderkun/p/8098781.html

https://www.cnblogs.com/jiashun/p/doubles.html

逻辑回归(logistic regression)的本质——极大似然估计_逻辑回归极大似然估计推导-CSDN博客

安全验证 - 知乎

softmax算法为什么采用softmax function作为每一个类别的概率? - 知乎

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
卷积神经网络是一种常用于图像识别和分类任务的深度学习模型。在这个网络中,使用了一些不同的层来处理和转换输入数据。 首先是卷积层(conv),它能够捕捉输入图像的空间特征。卷积层通过滑动一个称为卷积核的小窗口来提取图像中的特征。卷积操作可帮助学习出适合任务的特征,以便后续层能更好地进行分类。 接下来是sigmoid层,它是激活函数层的一种形式。激活函数的作用是为网络引入非线性特性。sigmoid函数可将输入值压缩到0到1之间的范围内,使其更易于进行计算和优化。 然后是池化层(pool),它在卷积层之后执行。池化操作的目标是减小特征图的尺寸,降低网络的计算负荷。通常的池化方式是取窗口内的最大值或平均值来减少特征图的维度。 在卷积和池化之后,经过全连接层(affine)。全连接层采用所有输入神经元与输出神经元之间的连接方式。每个神经元都接收上一层所有神经元的权重,这些权重用于计算输出。 再次使用sigmoid层进行非线性激活,以增强网络的非线性表达能力。 最后softmax层,该层将网络的输出转换为一组概率分布,用于多类别分类softmax函数可以将输出值归一化为0到1之间的概率分布,且所有概率之和为1。 在整个网络中,每个层的输出将作为下一层的输入,这样信息可以在网络中流动和更新权重进行训练,直到最后达到准确的预测结果。 通过这种卷积神经网络的层次结构和不同层之间的数据流动,可以提取输入数据的特征并进行分类预测。网络中的每个层都具有特定的功能,相互配合,使得网络可以学习到更加复杂和高级的特征。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值