非线性激活函数的作用

最新推荐文章于 2024-05-13 15:14:03 发布

沐雲小哥

最新推荐文章于 2024-05-13 15:14:03 发布

阅读量5.3k

点赞数 2

分类专栏：深度学习文章标签：神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44533869/article/details/108454143

版权

深度学习专栏收录该内容

13 篇文章 1 订阅

订阅专栏

为什么需要非线性激活函数？（why need a nonlinear activation function?）

为什么神经网络需要非线性激活函数？

事实证明：要让你的神经网络能够计算出有趣的函数，你必须使用非线性激活函数，证明如下：

这是神经网络正向传播的方程（看图中公式）

现在我们去掉函数g，然后令在这里插入图片描述

，或者我们也可以令g(z)=z，这个有时被叫做线性激活函数（更学术点的名字是恒等激励函数，因为它们就是把输入值输出）。

为了说明问题我们把在这里插入图片描述
，那么这个模型的输出y或仅仅只是输入特征x的线性组合。

如果我们改变前面的式子，令：
在这里插入图片描述
如果你是用线性激活函数或者叫恒等激励函数，那么神经网络只是把输入线性组合再输出。

（你可以理解为其实做这样的变换没有对数据和我们想要的结果有很大的改变）

我们稍后会谈到深度网络，有很多层的神经网络，很多隐藏层。

事实证明，如果你使用线性激活函数或者没有使用一个激活函数，那么无论你的神经网络有多少层一直在做的只是计算线性函数，所以不如直接去掉全部隐藏层。

在我们的简明案例中，事实证明如果你在隐藏层用线性激活函数，在输出层用sigmoid函数，那么这个模型的复杂度和没有任何隐藏层的标准Logistic回归是一样的。

在这里线性隐层一点用也没有，因为这两个线性函数的组合本身就是线性函数，所以除非你引入非线性，否则你无法计算更有趣的函数，即使你的网络层数再多也不行；

只有一个地方可以使用线性激活函数------g(z)=z，就是你在做机器学习中的回归问题（记得哦，这个是建模是考虑的）。

y 是一个实数，举个例子，比如你想预测房地产价格，y 就不是二分类任务0或1，而是一个实数，从0到正无穷。如果y 是个实数，那么在输出层用线性激活函数也许可行，你的输出也是一个实数，从负无穷到正无穷。

划重点！划重点！划重点！

总而言之，不能在隐藏层用线性激活函数，可以用ReLU或者tanh或者leaky ReLU或者其他的非线性激活函数，唯一可以用线性激活函数的通常就是输出层；

在这里插入图片描述

除了这种情况，会在隐层用线性函数的，除了一些特殊情况，比如与压缩有关的，那方面在这里将不深入讨论。

在这之外，在隐层使用线性激活函数非常少见。因为房价都是非负数，所以我们也可以在输出层使用ReLU函数这样你的y^都大于等于0。

理解为什么使用非线性激活函数对于神经网络十分关键，接下来我们讨论梯度下降，并在下一个笔记中开始讨论梯度下降的基础——激活函数的导数。

就是开始推导公式了，所以要注意了，还记得各个激活函数的表达式是什么么？

参考博文：
https://www.jianshu.com/p/30e28cc28bcc

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
非线性激活函数的作用

为什么需要非线性激活函数？（why need a nonlinear activation function?）为什么神经网络需要非线性激活函数？事实证明：要让你的神经网络能够计算出有趣的函数，你必须使用非线性激活函数，证明如下：这是神经网络正向传播的方程（看图中公式）现在我们去掉函数g，然后令，或者我们也可以令g(z)=z，这个有时被叫做线性激活函数（更学术点的名字是恒等激励函数，因为它们就是把输入值输出）。为了说明问题我们把，那么这个模型的输出y或仅仅只是输入特征x的线性组合。如果我们改
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。