ReLU激活函数：简单之美

ytusdc

已于 2022-12-30 19:15:26 修改

阅读量4.2k

点赞数 3

分类专栏： AI之路 - Face 文章标签：深度学习人工智能

于 2019-01-02 19:20:01 首次发布

本文链接：https://blog.csdn.net/ytusdc/article/details/85633771

版权

AI之路 - Face 专栏收录该内容

71 篇文章 38 订阅

订阅专栏

1、ReLU

在深度神经网络中，通常使用一种叫修正线性单元(Rectified linear unit，ReLU）作为神经元的激活函数。ReLU起源于神经科学的研究：2001年，Dayan、Abott从生物学角度模拟出了脑神经元接受信号更精确的激活模型，如下图：

fig1

其中横轴是时间(ms)，纵轴是神经元的放电速率(Firing Rate)。同年，Attwell等神经科学家通过研究大脑的能量消耗过程，推测神经元的工作方式具有稀疏性和分布性；2003年Lennie等神经科学家估测大脑同时被激活的神经元只有1~4%，这进一步表明了神经元的工作稀疏性。而对于ReLU函数而言，类似表现是如何体现的？其相比于其他线性函数(如purlin)和非线性函数(如sigmoid、双曲正切)又有何优势？下面请各位看官容我慢慢道来。

简单之美
首先，我们来看一下ReLU激活函数的形式，如下图：

从上图不难看出，ReLU函数其实是分段线性函数，把所有的负值都变为0，而正值不变，这种操作被成为单侧抑制。可别小看这个简单的操作，正因为有了这单侧抑制，才使得神经网络中的神经元也具有了稀疏激活性。尤其体现在深度神经网络模型(如CNN)中，当模型增加N层之后，理论上ReLU神经元的激活率将降低2的N次方倍。这里或许有童鞋会问：ReLU的函数图像为什么一定要长这样？反过来，或者朝下延伸行不行？其实还不一定要长这样。只要能起到单侧抑制的作用，无论是镜面翻转还是180度翻转，最终神经元的输出也只是相当于加上了一个常数项系数，并不影响模型的训练结果。之所以这样定，或许是为了契合生物学角度，便于我们理解吧。
那么问题来了：这种稀疏性有何作用？换句话说，我们为什么需要让神经元稀疏？不妨举栗子来说明。当看名侦探柯南的时候，我们可以根据故事情节进行思考和推理，这时用到的是我们的大脑左半球；而当看蒙面唱将时，我们可以跟着歌手一起哼唱，这时用到的则是我们的右半球。左半球侧重理性思维，而右半球侧重感性思维。也就是说，当我们在进行运算或者欣赏时，都会有一部分神经元处于激活或是抑制状态，可以说是各司其职。再比如，生病了去医院看病，检查报告里面上百项指标，但跟病情相关的通常只有那么几个。与之类似，当训练一个深度分类模型的时候，和目标相关的特征往往也就那么几个，因此通过ReLU实现稀疏后的模型能够更好地挖掘相关特征，拟合训练数据。

此外，相比于其它激活函数来说，ReLU有以下优势：对于线性函数而言，ReLU的表达能力更强，尤其体现在深度网络中；而对于非线性函数而言，ReLU由于非负区间的梯度为常数，因此不存在梯度消失问题(Vanishing Gradient Problem)，使得模型的收敛速度维持在一个稳定状态。这里稍微描述一下什么是梯度消失问题：当梯度小于1时，预测值与真实值之间的误差每传播一层会衰减一次，如果在深层模型中使用sigmoid作为激活函数，这种现象尤为明显，将导致模型收敛停滞不前。

总结：

1、ReLU本质上是分段线性模型，前向计算非常简单，无需指数之类操作；
2、ReLU的偏导也很简单，反向传播梯度，无需指数或者除法之类操作；
3、ReLU不容易发生梯度发散问题，Tanh和Logistic激活函数在两端的时候导数容易趋近于零，多级连乘后梯度更加约等于0；
4、ReLU关闭了右边，从而会使得很多的隐层输出为0，即网络变得稀疏，起到了类似L1的正则化作用，可以在一定程度上缓解过拟合。
当然，ReLU也是有缺点的，比如左边全部关了很容易导致某些隐藏节点永无翻身之日，所以后来又出现pReLU、random ReLU等改进，而且ReLU会很容易改变数据的分布，因此ReLU后加Batch Normalization也是常用的改进的方法。

参考文章：

1、ReLU激活函数：简单之美_对半独白的博客-CSDN博客_relu

2、重新思考计算机视觉中常用的激活函数ReLU - 知乎

3、ReLU激活函数 - 知乎

2、Relu反向传播

Relu的公式为：

前向传播时的输入x大于0，就将x传入下一层，如果x小于等于0就将0传入下一层

Relu的导数为：

通过上式，我们可以求出y关于x的导数， dout为反向传播时，上一层传过来的导数

1、当x>0时，y=x，求导为1，也就是原封不动传递。

2、当x<0时，y=0，求导为0，也就是传递值为0。

3、但是 x=0处不可导,那么如何实现反向传播和模型优化呢? 答案就是:次梯度。

则ReLU函数在x=0的次梯度是 c∈[0,1] ,这里是次梯度有多个,可以取0,1之间的任意值. 工程上为了方便取c=0即可.

因此总结为当x<= 0时，y=0，求导为0，也就是传递值为0。

次梯度公式：

import numpy as np
class Relu:
    def __init__(self):
        self.x=None

    def forward(self,x):        # x 前向传播时候的x输入
        self.x=np.maximum(0,x)  # self.x relu后的计算输出
        out=self.x
        return out
    # self.x 和 dout 是想通尺寸的张量
    def backward(self,dout):
        dx=dout            # dx 用于保存梯度的张量
        dx[self.x<=0]=0    # dx张量中 self.x <=0 位置的导数为 0， 
        return dx