三、深度学习基础4（激活函数2）

满满myno

已于 2022-04-26 09:17:57 修改

阅读量995

点赞数 3

分类专栏：深度学习(上) 文章标签：机器学习深度学习 opencv 人工智能

于 2022-04-25 20:14:48 首次发布

本文链接：https://blog.csdn.net/weixin_53832681/article/details/124413095

版权

深度学习(上) 专栏收录该内容

46 篇文章 2 订阅

订阅专栏

如何选择激活函数

选择一个适合的激活函数并不容易，需要考虑很多因素，通常的做法是，如果不确定哪一个激活函数效果更好，可以把它们都试试，然后在验证集或者测试集上进行评价。然后看哪一种表现的更好，就去使用它。
以下是常见的选择情况：
1、如果输出是 0、1 值（二分类问题），则输出层选择 sigmoid 函数，然后其它的所有单元都选择 Relu 函数。
2、如果在隐藏层上不确定使用哪个激活函数，那么通常会使用 Relu 激活函数。有时，也会使用 tanh 激活函数，但 Relu 的一个优点是：当是负值的时候，导数等于 0。
3、sigmoid 激活函数：除了输出层是一个二分类问题基本不会用它。
4、tanh 激活函数：tanh 是非常优秀的，几乎适合所有场合。
5、ReLu 激活函数：最常用的默认函数，如果不确定用哪个激活函数，就使用 ReLu 或者Leaky ReLu，再去尝试其他的激活函数。
6、如果遇到了一些死的神经元，我们可以使用 Leaky ReLU 函数。

ReLu 激活函数的优点

1、在区间变动很大的情况下，ReLu 激活函数的导数或者激活函数的斜率都会远大于 0，在程序实现就是一个 if-else 语句，而 sigmoid 函数需要进行浮点四则运算，在实践中，使用ReLu 激活函数神经网络通常会比使用 sigmoid 或者 tanh 激活函数学习的更快。
2、sigmoid 和 tanh 函数的导数在正负饱和区的梯度都会接近于 0，这会造成梯度弥散，而Relu 和 Leaky ReLu 函数大于 0 部分都为常数，不会产生梯度弥散现象。
3、需注意，Relu 进入负半区的时候，梯度为 0，神经元此时不会训练，产生所谓的稀疏性，而 Leaky ReLu 不会产生这个问题

什么时候可以用线性激活函数

1、输出层，大多使用线性激活函数。
2、在隐含层可能会使用一些线性激活函数。
3、一般用到的线性激活函数很少。

理解 Relu （<0 时）是非线性激活函数

Relu 激活函数图像如下：

根据图像可看出具有如下特点：
1、单侧抑制， 2、相对宽阔的兴奋边界，3、稀疏激活性
ReLU 函数从图像上看，是一个分段线性函数，把所有的负值都变为 0，而正值不变，这样就成为单侧抑制。
因为有了这单侧抑制，才使得神经网络中的神经元也具有了稀疏激活性。

稀疏激活性：从信号方面来看，即神经元同时只对输入信号的少部分选择性响应，大量信号被刻意的屏蔽了，这样可以提高学习的精度，更好更快地提取稀疏特征。当 x<0 时，ReLU硬饱和，而当 x>0 时，则不存在饱和问题。ReLU 能够在 x>0 时保持梯度不衰减，从而缓解梯度消失问题。

满满myno

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
三、深度学习基础4（激活函数2）

如何选择激活函数选择一个适合的激活函数并不容易，需要考虑很多因素，通常的做法是，如果不确定哪一个激活函数效果更好，可以把它们都试试，然后在验证集或者测试集上进行评价。然后看哪一种表现的更好，就去使用它。以下是常见的选择情况：1、如果输出是 0、1 值（二分类问题），则输出层选择 sigmoid 函数，然后其它的所有单元都选择 Relu 函数。2、如果在隐藏层上不确定使用哪个激活函数，那么通常会使用 Relu 激活函数。有时，也会使用 tanh 激活函数，但 Relu 的一个优点是：当是负值的时候，
复制链接

扫一扫