激活函数

最新推荐文章于 2022-04-05 21:51:10 发布

莫一丞元

最新推荐文章于 2022-04-05 21:51:10 发布

阅读量555

点赞数 1

分类专栏：激活函数文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45422462/article/details/108500596

版权

激活函数专栏收录该内容

1 篇文章 0 订阅

订阅专栏

理论

从数学上看，神经网络是一个多层复合函数。激活函数在很早以前就被引入，其作用是保证神经网络的非线性，除输入层之外，标准的前馈型神经网络第i层实现的变换可以分为线性组合、激活函数两步。

神经网络第i层的变换写成矩阵和向量形式为：

在这里插入图片描述

其中W是权重矩阵，b是偏置向量，u是临时结果，x是神经网络每一层的输出。

什么样的函数可以做激活函数？

前面已经说过，为保证非线性，激活函数必须为非线性函数，但仅仅具有非线性是不够的。神经网络在本质上是一个复合函数，这会让我们思考一个问题：这个函数的建模能力有多强？即它能模拟什么样的目标函数？已经证明，只要激活函数选择得当，神经元个数足够多，使用3层即包含一个隐含层的神经网络就可以实现对任何一个从输入向量到输出向量的连续映射函数的逼近，这个结论称为万能逼近（universal approximation）定理。万能逼近定理的表述为：

在这里插入图片描述

这个定理对激活函数的要求是必须非常数、有界、单调递增，并且连续。

激活函数大致分为饱和激活函数和非饱和激活函数。现在一般使用非饱和激活函数进行激活操作。

在这里插入图片描述

常用激活函数

Sigmoid

函数饱和使梯度消失
sigmoid 函数不是关于原点中心对称的

在这里插入图片描述

Tanh

在具体应用中，tanh函数相比于Sigmoid函数往往更具有优越性，这主要是因为Sigmoid函数在输入处于[-1,1]之间时，函数值变化敏感，一旦接近或者超出区间就失去敏感性，处于饱和状态。

在这里插入图片描述

ReLU

ReLU 对于 SGD 的收敛有巨大的加速作用；它在训练时比较脆弱并且可能“死掉”。注：采用ReLU进行激活时，尽量设置较低的学习率和好的参数初始化。

在这里插入图片描述

优势

ReLU是神经网络中最常用的激活函数，尤其是在CNN中。如果您不确定要在网络中使用哪种激活功能，通常最好选择ReLU。

对于所有正值，ReLU是线性的（identity），对于所有负值，ReLU是零的。这意味着：

· 由于没有复杂的数学运算，因此计算开销小。因此，该模型可以花费更少的时间进行训练或预测。

· 它收敛更快。线性意味着当x变大时，斜率不会平稳或“饱和” 。它没有其他激活函数具有的梯度消失问题（如Sigmoid或tanh）。在x>0区域，防止出现梯度爆炸、梯度消失问题。

· 它可以被稀疏地激活。由于所有负输入的ReLU均为零，因此任何给定的单元都可能根本无法激活。

缺点

ReLU的输出不是0均值的。
Dead ReLU
Problem(神经元坏死现象)：ReLU在负数区域被kill的现象叫做dead relu。ReLU在训练的时很“脆弱”。在x<0时，梯度为0。这个神经元及之后的神经元梯度永远为0，不再对任何数据有所响应，导致相应参数永远不会被更新。

网络稀疏性

注意：我们在这里讨论模型稀疏性。数据稀疏性（缺少信息）是不同的，通常是不好的。

为什么模型稀疏性好？如果我们考虑一下人工神经网络试图模仿的生物神经网络，这在直觉上是有意义的。尽管我们体内有数十亿个神经元，但并非所有时间都为我们所做的所有事情激发。相反，它们具有不同的作用，并由不同的信号激活。

稀疏性导致简洁的模型，这些模型通常具有更好的预测能力和更少的过拟合。在稀疏网络中，神经元更有可能实际上正在处理问题的有意义的方面。例如，在检测图像中猫的模型中，可能存在可以识别耳朵的神经元，如果图像是关于建筑物的，则显然不应激活该神经元。

最后，稀疏网络比密集网络更快，因为要计算的东西更少。

Leaky ReLU

ReLU是将所有的负值都设为零，相反，Leaky
ReLU是给所有负值赋予一个非零斜率。

在这里插入图片描述

参数化修正线性单元（PReLU）

PReLU可以看作是Leaky ReLU的一个变体。在PReLU中，负值部分的斜率是根据数据来定的，而非预先定义的。作者称，在ImageNet分类（2015，Russakovsky等）上，PReLU是超越人类分类水平的关键所在。

在这里插入图片描述

随机纠正线性单元（RReLU）

“随机纠正线性单元”RReLU也是Leaky
ReLU的一个变体。在RReLU中，负值的斜率在训练中是随机的，在之后的测试中就变成了固定的了。RReLU的亮点在于，在训练环节中，aji是从一个均匀的分布U(I,u)中随机抽取的数值。形式上来说，我们能得到以下结果：

在这里插入图片描述

Maxout

在这里插入图片描述

实践

在这里插入图片描述

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。