解释一:如果是线性激活函数:输出y`是输入x的线性组合,那么无论神经网络有多少层,一直在做的只是计算线性激活函数,所以不如直接去掉全部隐含层。线性隐含层一点用都没有,因为两个线性函数的组合本身就是线性组合。所以除非引入非线性,那么无法计算更加有趣的函数,网络层数再多也不行。只有一个地方可以使用线性激活函数,就是如果要机器学习的就是回归问题,要预测的y是一个实值,比如房价从0到inf,那么用线性激活函数也许可行但是影藏单元不能用线性激活函数。
所以唯一能用线性激活函数的地方通常是输出层。
解释二:从生物学的神经网络来说,突触类似于隐含层,但是树凸之间的激活并不是线性的,是电信号和化学信号的转化,是非线性传播的。