简单记录学习~
3×3、5×5 和 7×7 卷积核主要在以下几个方面存在区别:感受野、计算成本、特征提取能力 和 适用场景。
1. 感受野
-
定义:感受野指一个卷积核在输入特征图上所覆盖的区域大小。
-
差异:
- 3×3:感受野小,主要用于捕获局部细节。
- 5×5:感受野中等,可以捕获稍大的局部模式和上下文关系。
- 7×7:感受野较大,能够感知更大范围的特征,适合融合局部与全局的信息。
-
累积感受野:
如果通过堆叠多个 3×3 卷积层(如 ResNet 的设计),可以模拟较大的感受野。例如:- 两层 3×3 卷积的有效感受野为 5×5。
- 三层 3×3 卷积的有效感受野为 7×7。
-
直接使用 7×7 的卷积核,则一次操作即可获得较大的感受野。
2. 计算成本
计算成本主要受卷积核大小的影响,与输入特征图大小也有关系。
-
公式: 对于一个 Cin×Cout 的卷积层,其参数量为:
参数量=(k×k×Cin+1)×Cout 其中 kk 是卷积核大小。
-
比较(假设输入通道 Cin=64,输出通道 Cout=128):
- 3×3:参数量 =(3×3×64+1)×128=73,856。
- 5×5:参数量 =(5×5×64+1)×128=204,928。
- 7×7:参数量 =(7×7×64+1)×128=401,536。
-
结果: 较大的卷积核会显著增加计算成本和参数量。因此,直接使用 5×5 或 7×7 通常更耗时且对资源需求更高。
3. 特征提取能力
-
小卷积核 (3×3):
- 优点:能够有效捕获局部细节特征,如边缘、纹理等。
- 缺点:感受野较小,难以感知更大的全局信息。
-
中等卷积核 (5×5):
- 优点:可以捕获更大的上下文关系,提取中等规模的模式。
- 缺点:相比 3×3,计算成本更高。
-
大卷积核 (7×7):
- 优点:适合捕获全局特征和更长距离的依赖关系,尤其是处理空间上下文时(如语义分割或注意力机制)。
- 缺点:容易丢失细节信息,计算量大。
4. 适用场景
根据任务的需求,选择不同的卷积核大小:
卷积核大小 | 感受野 | 特性 | 典型应用场景 |
---|---|---|---|
3×3 | 小 | 捕获细节特征 | 常用于深度网络(ResNet、VGG等),通过堆叠层数获得更大感受野,计算高效。 |
5×5 | 中 | 平衡细节与上下文信息 | 用于中等规模的特征提取(如中间层),在某些注意力模块或特征提取模块中出现(如SENet)。 |
7×7 | 大 | 融合局部与全局信息 | 用于初始层(如AlexNet的第一层),或者全局上下文感知任务(如空间注意力机制或语义分割)。 |
5. 实例:堆叠 3×3 vs 单独使用 7×7
通过堆叠多个 3×3 卷积层可以模拟 7×7 的效果,但两者仍有区别:
- 堆叠效果:
- 更细粒度的提取能力,因为每一层都可以学习不同的特征。
- 参数更少,因为 3×3 的单层参数少,可以通过多层堆叠分摊计算。
- 直接使用 7×7:
- 一次操作完成全局感知,但缺乏逐层学习的能力。
- 参数量和计算量更高。
总结
- 3×3:更适合捕获细节,通过堆叠获得更大感受野。
- 5×5:适合中等感受野,平衡细节和上下文信息。
- 7×7:用于全局感知,更适合注意力机制或任务初始阶段。