引入非线性激励函数的作用

最新推荐文章于 2024-04-27 20:44:16 发布

xingchengmeng

最新推荐文章于 2024-04-27 20:44:16 发布

阅读量1.5k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xingchengmeng/article/details/56289427

版权

deep neural network可以认为是特征的多层表达，这过程activation function的作用是提供非线性变换。如果不用激励函数（其实相当于激励函数是f(x) = x），在这种情况下你每一层输出都是上层输入的线性函数，很容易验证，无论你神经网络有多少层，输出都是输入的线性组合，与没有隐藏层效果相当，这种情况就是最原始的感知机（Perceptron）了。线性变换模型capacity是很有限的，连最简单的异或问题都没法解决。没有激活函数的每层都相当于矩阵相乘。就算你叠加了若干层之后，无非还是个矩阵相乘罢了。

在PRML 中有这样一段话：如果网络中的所有隐含单元的激活函数都取线性函数,那么对于任何这种网络,我们总可以
找到一个等价的无隐含单元的网络。这是由于连续的线性变换的组合本身是一个线性变换。然而,如果隐含单元的数量小于输入单元的数量或者小于输出单元的数量,那么网络能够产生的变换不是最一般的从输入到输出的线性变换,因为在隐含单元出的维度降低造成了信息丢失。

参考 https://www.zhihu.com/question/29021768

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
引入非线性激励函数的作用

deep neural network可以认为是特征的多层表达，这过程activation function的作用是提供非线性变换。如果不用激励函数（其实相当于激励函数是f(x) = x），在这种情况下你每一层输出都是上层输入的线性函数，很容易验证，无论你神经网络有多少层，输出都是输入的线性组合，与没有隐藏层效果相当，这种情况就是最原始的感知机（Perceptron）了。线性变换模型capacit
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。