Activation Function激活函数

Activation Function

定义

  • 激活函数是在人工神经网络中常用的数学函数。
  • 在神经网络中,输入经过权值加权计算并求和之后,需要经过一个函数的作用,这个函数就是激活函数(Activation Function)。

作用

  • 在线性变换后,需要对input进行非线性变换,即引入非线性激活函数
  • 对每一层的输出做处理,引入非线性因素,使得神经网络可以逼近任意的非线性函数,进而使得添加了激活函数的神经网络可以应用到众多的非线性模型中,从而在非线性领域继续发挥重要作用

增加非线性,帮助nn学习各种现象,增加神经网络的表达能力,从而提高神经网络的性能

例如:

提高模型鲁棒性、
缓解梯度消失问题、
将特征输入映射到新的特征空间
加速模型收敛

  • 如果在神经网络中不引入激活函数,

那么在该网络中,每一层的输出都是上一层输入的线性函数,

无论最终的神经网络有多少层,输出都是输入的线性组合;

其一般也只能应用于线性分类问题中,

例如,
多层感知机 (MLP)
Multi-Layer Perceptron

常见激活函数

饱和激活函数

(以Tanh,Sigmoid和hard-Sigmoid函数为主)

Sigmoid函数

常被用作神经网络的阈值函数,将变量映射到0,1之间

i.e. 将input压缩到 [0,1]

表达式

在这里插入图片描述

函数图像

在这里插入图片描述

优点:

  1. 将很大范围内的输入特征值压缩到0~1之间,使得在深层网络中可以保持数据幅度不会出现较大的变化,而Relu函数则不会对数据的幅度作出约束;
  2. 在物理意义上最为接近生物神经元
  3. 根据其输出范围,该函数适用于将预测概率作为输出的模型;

缺点:

  1. 当输入非常大或非常小的时候,输出基本为常数,即变化非常小,进而导致梯度接近于0;
  2. 输出不是0均值,进而导致后一层神经元将得到上一层输出的非0均值的信号作为输入。随着网络的加深,会改变原始数据的分布趋势;
  3. 梯度可能会过早消失,进而导致收敛速度较慢,例如与Tanh函数相比,其就比sigmoid函数收敛更快,是因为其梯度消失问题较sigmoid函数要轻一些;
  4. 、幂运算相对耗时。

Tanh函数

Tanh是双曲函数中的一个,Tanh()为双曲正切

在数学中,双曲正切“Tanh”是由基本双曲函数双曲正弦和双曲余弦推导而来。

函数的输出范围在 -1~1 之间

i.e. 将input压缩到 [-1,1]

表达式

在这里插入图片描述

函数图像

在这里插入图片描述

优点:

  1. 解决了上述的Sigmoid函数输出不是0均值的问题;
  2. Tanh函数的导数取值范围在01之间,优于sigmoid函数的00.25,一定程度上缓解了梯度消失的问题;
  3. Tanh函数在原点附近与y=x函数形式相近,当输入的激活值较低时,可以直接进行矩阵运算,训练相对容易;

缺点:

  1. 与Sigmoid函数类似,梯度消失问题仍然存在;
  2. 观察其两种形式的表达式,即2*sigmoid(2x)-1与(exp(x)-exp(x))/(exp(x)+exp(-x)),
    (可见,幂运算的问题仍然存在
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Cmy_CTO

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值