本章讲述了为什么要是深度学习,选择“高瘦”型的深网络,而不是“矮胖”型的宽网络。
1.矮胖还是高瘦?
我们知道在神经单元足够多、参数够多的情况下,只需要一个隐藏层,就可以表示任意的函数。既然如此为什么不选择用这种宽网络,而是选择深度网络呢?
神经网络是越深越好吗?答案是肯定的,因为更深的网络代表着更多的参数,实验结果当然更好。倘若让它们参数一样,也就是如果有两个网络,一个矮胖,一个瘦高,哪个效果更好?在对比不同网络形状的效果时,要注意保证两个网络的参数数量基本一致,这样才有比较的意义。
由上图可以看出,在5*2K和1*3772这两个网络参数基本相等的情况下,前者的性能明显优于后者,并且宽的网络在尺寸不断增大时,性能提升的也不明显。