改神经网络模型的方法（1）

最新推荐文章于 2025-03-18 09:27:14 发布

业余科了个研

最新推荐文章于 2025-03-18 09:27:14 发布

阅读量5.7k

点赞数 7

分类专栏：计算机视觉与深度学习文章标签：深度学习

原文链接：https://blog.csdn.net/duanyajun987/article/details/93209824

版权

计算机视觉与深度学习专栏收录该内容

12 篇文章

订阅专栏

《Bag of Tricks for Image Classification with Convolutional Neural Networks(2018)》，论文中以ResNet为例提出了一些简单的微调技巧，并且取得了一定的成果。且不说准确率如何，论文中除了分析准确率有着怎样怎样的提升之外，还关注了产生了额外开销，并且通过分析、实验量化了这些开销，这是值得肯定的（比那些不考虑开销，盲目微调，通过牺牲很多速度来提高那一点点准确率的论文，不知道要高到哪里去！）

先大致归纳一下改模型的一些trick：

1）针对网络宽度与深度，如ResNeXt

2）针对残差网络的一些skip方法，还有如FCN

3）类似U-net、segnet的对称非对称连接或多尺度方法

4）多支、分组卷积设计方法，如Siamese网络

5）利用注意力机制改进

6）引入动态网络改进

7）损失函数设计

8）卷积核（动态卷积核、随机卷积）、池化操作

.......（陆续补充）

以ResNet为例

原始的ResNet模型可以参考《经典的CNN分类架构 - ResNet | Hey~YaHei!》，其核心在于应用了shortcut（原文称为skip connection）技术使得深层网络也能够被有效训练，具体细节这里就不再赘述。

resnet_a

改进1：推迟下采样

该改进方法最初是在Torch上提出的，目前这一改进也已经被广泛地应用。
首先观察原始模型的下采样模块——

resnet_downsample

其PathA依次经过
1. 1x1的卷积，完成通道的收缩，并且步长为2以实现下采样
2. 3x3的卷积，通道数量不变，主要用于提取特征
3. 1x1的卷积，完成通道的扩张

其中第一个卷积用来作为下采样，所以步长设为了1——但你仔细想想会发现，核大小1x1、步长2的卷积会造成3/4的信息丢失！以6x6的特征图为例，如下图所示，只有红色部分的信息能够传递到下一层去，非红色部分均不参与卷积计算。

conv_k1s2

由此可见，在1x1的卷积层作下采样是不明智的，更好的做法是把下面1x1下采样过程（stride=2）放到3x3的这一层卷积，如下图所示，由于卷积核宽度大于步长，卷积核在移动过程中能够遍历输入特征图上的所有信息（甚至还能有重叠）：(原文stride默认为1)

conv_k3s2

下采样模块就变为——

resnet_b_downsample

改进2：拆解大核卷积

如《卷积神经网络CNN - 卷积层（Conv） | Hey~YaHei!》所述，大核卷积层可以由多层小核卷积替代实现，这不仅可以减少参数，还能加深网络深度以增加网络容量和复杂度。
Inception也早在《Rethinking the Inception Architecture for Computer Vision(2015)》一文中对Inceptionv1做出改进，分别用三个和两个3x3卷积的级联去替代7x7和5x5的卷积。
这一技巧同样适用于ResNet——

resnet_c_input

改进3：用平均池化替代1x1卷积做下采样

下采样模型的PathA和PathB都需要做下采样才能正确地加和，改进1只针对PathA做了改进，其实PathB也用了1x1的卷积做下采样。为此，论文《Bag of Tricks for Image Classification with Convolutional Neural Networks(2018)》用平均池化接替了PathB中的降采样工作：

resnet_d_downsample