激活函数总结

最新推荐文章于 2023-08-22 19:52:00 发布

来自宇宙岛的海龟

最新推荐文章于 2023-08-22 19:52:00 发布

阅读量387

点赞数

分类专栏： ML

本文链接：https://blog.csdn.net/weixin_44064649/article/details/103166742

版权

ML 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

激活函数的作用

首先，激活函数不是真的要去激活什么，而是用来加入非线性因素的，因为线性模型的表达能力不够。在神经网络中，激活函数的作用是能够给神经网络加入一些非线性因素，使得神经网络可以更好地解决较为复杂的问题。

在这里插入图片描述
如果不用激励函数（其实相当于激励函数是f(x) = x），在这种情况下你每一层节点的输入都是上层输出的线性函数，很容易验证，无论你神经网络有多少层，输出都是输入的线性组合，与没有隐藏层效果相当，这种情况就是最原始的感知机（Perceptron）了，那么网络的逼近能力就相当有限。正因为上面的原因，我们决定引入非线性函数作为激励函数，这样深层神经网络表达能力就更加强大（不再是输入的线性组合，而是几乎可以逼近任意函数）。

Sigmoid函数

在这里插入图片描述

Sigmoid函数曾被广泛地应用，但由于其自身的一些缺陷，现在很少被使用了。Sigmoid函数被定义为：

函数对应的图像是：
在这里插入图片描述
特点：
它能够把输入的连续实值变换为0和1之间的输出，特别的，如果是非常大的负数，那么输出就是0；如果是非常大的正数，输出就是1。

优点：
1.Sigmoid函数的输出映射（0，1）在之间，单调连续，输出范围有限，优化稳定，可以用作输出层。
2.求导容易。

缺点：
1.由于其软饱和性，容易产生梯度消失，导致训练出现问题。
2.其输出并不是以0为中心的。

tanh函数

在这里插入图片描述

tanh读作Hyperbolic Tangent，它解决了Sigmoid函数的不是zero-centered输出问题，然而，梯度消失（gradient vanishing）的问题和幂运算的问题仍然存在。现在，比起Sigmoid函数我们通常更倾向于tanh函数。tanh函数被定义为

函数位于[-1, 1]区间上，对应的图像是：

在这里插入图片描述

优点：
1.和sigmoid相比收敛速度更快。
2.相比Sigmoid函数，其输出以0为中心。
缺点：
还是没有改变Sigmoid函数的最大问题——由于饱和性产生的梯度消失。

ReLU：用于隐层神经元输出

在这里插入图片描述
f(x ) = max(0,x) 即　if x>=0 时　f(x) = x,否则f(x) = 0

对应的图像为：

在这里插入图片描述

或者可表示为：
在这里插入图片描述
优点：这个是线性,非饱和的形式，和前面两个相比它能够快速收敛，另外ReLU有效的缓解了梯度消失的问题，而且它提供了神经网络的稀疏表达能力
1.相比起Sigmoid和tanh，ReLU(e.g. a factor of 6 in Krizhevsky et al.)在SGD中能够快速收敛。例如在下图的实验中，在一个四层的卷积神经网络中，实线代表了ReLU，虚线代表了tanh，ReLU比起tanh更快地到达了错误率0.25处。据称，这是因为它线性、非饱和的形式。
在这里插入图片描述
2.Sigmoid和tanh涉及了很多很expensive的操作（比如指数），ReLU可以更加简单的实现。
3.有效缓解了梯度消失的问题。
4.在没有无监督预训练的时候也能有较好的表现。

5.提供了神经网络的稀疏表达能力。