机器学习入门（20）— 深度学习中为什么卷积层越多，性能越好

最新推荐文章于 2024-06-15 18:02:53 发布

wohu007

最新推荐文章于 2024-06-15 18:02:53 发布

阅读量1.1w

点赞数 9

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/wohu1104/article/details/107118997

版权

Machine Learning 专栏收录该内容

29 篇文章 51 订阅

订阅专栏

1. 加深层的优势

1.1 减少网络参数数量

假设卷积层的一个好处是可以减少网络的参数数量。说得详细一点，就是与没有加深层的网络相比，加深了层的网络可以用更少的参数达到同等水平（或者更强）的表现力。

可以结合卷积运算中的滤波器大小来思考就好理解了。比如，图8-5展示了由5 × 5的滤波器构成的卷积层。
图 8-5
显然，在图8-5 的例子中，每个输出节点都是从输入数据的某个 5 × 5 的区域算出来的。

接下来我们思考一下图8-6 中重复两次3 × 3 的卷积运算的情形。此时，每个输出节点将由中间数据的某个3 × 3 的区域计算出来。那么，中间数据的3 × 3 的区域又是由前一个输入数据的哪个区域计算出来的呢？仔细观察图8-6，可知它对应一个5 × 5 的区域。也就是说，图8-6 的输出数据是“观察”了输入数据的某个5 × 5 的区域后计算出来的。

图 8-6
一次5 × 5 的卷积运算的区域可以由两次3 × 3 的卷积运算抵充。并且，相对于前者的参数数量25（5 × 5），后者一共是18（2 × 3 × 3），通过叠加卷积层，参数数量减少了。而且，这个参数数量之差会随着层的加深而变大。

比如，重复三次3 × 3 的卷积运算时，参数的数量总共是27。而为了用一次卷积运算“观察”与之相同的区域，需要一个7 × 7 的滤波器，此时的参数数量是49。

叠加小型滤波器来加深网络的好处是可以减少参数的数量，扩大感受野（receptive field，给神经元施加变化的某个局部空间区域）。并且，通过叠加层，将 ReLU 等激活函数夹在卷积层的中间，进一步提高了网络的表现力。这是因为向网络添加了基于激活函数的“非线性”表现力，通过非线性函数的叠加，可以表现更加复杂的东西。