论文阅读——Densely Connected Convolutional Networks

本文链接：https://blog.csdn.net/weixin_44012382/article/details/108080136

前言

之前有一段时间看了挺多深度学习方面的论文，但是由于时间方面的问题一直没来得及进行总结。最近一段时间突发奇想把自己看论文时的学习笔记给记录一下，由于之前没写过博文，所以排版可能会有点emmm...一言难尽。专业方面的知识，如果有理解不到位的地方欢迎各位大佬指教。

本文的主要工作：

提出了一种Dense Convolutional Network(DenseNet)网络，该网络缓解了消失梯度问题，增强了特征传播，促进了特征再用并且大大减少了参数的数量。
在四个有竞争力的数据集(CIFAR-10, CIFAR-100, SVHN, and ImageNet)上进行实验，将DenseNet与其他最先进网络的性能作对比。

这一部分主要是介绍了近些年来随着卷积网络深度的增加，训练时出现了梯度消失的问题，以及最近的解决该问题的方法。最后提出密集卷积网络DenseNet，并对网络的大概构造进行概述。

1、解决梯度消失的方法：

2、密集卷积网络DenseNet的网络架构

网络中的每个层从它前面的所有层获得附加输入，并将输出传递给它后面的所有层。
从前面层中传递过来的特征图通过通道拼接构成输入(而不是像ResNets中进行对应通道相加)。
在DenseNet中第 $l$ 层有 $l$ 个输入，假设网络共有 $L$ 层，则总连接数为 $\frac{L\left ( L+1 \right )}{2}$ 。

3、DenseNet网络架构的优点

这一部分作者主要是提到了一些最近在卷积神经网络结构方面的科研进展。

这一部分主要是对网络中的一些部件进行介绍。文章中假设输入网络的图片为 $x_{0}$ ，网络一共有 $L$ 层，第 $l$ 层的非线性变换为 $H_{l}\left ( \cdot \right )$ 。

1、ResNets

2、Dense connectivity(密集连接)

DenseNet采用的是从任何层到所有后续层的直接连接方式。即第 $l$ 层接收所有前面层输出的特征图 $x_{0},...,x_{l-1}$ 作为输入，数学表达式为 $x_{l}=H_{l}\left (\left [ x_{0},x_{1}...,x_{l-1} \right ]\right )$ ，其中 $\left [ x_{0},x_{1}...,x_{l-1} \right ]$ 表示将第 $l$ 层前所有层输出的特征图进行拼接。

3、复合函数

4、池化层

由于下采样层是卷积网络的一个重要组成部分，而在执行下采样后输出特征图的大小发生变化无法与前面层中输出的特征图进行拼接，因此文章中将DenseNets分为多个密集连接模块，模块内使用密集连接结构。而模块间的层被称为过渡层，过渡层一般由BN标准化、1×1卷积和2×2的平均池化构成。

5、Growth rate(增长率)

6、瓶颈层

虽然DenseNet每层都只输出 $k$ 个特征图，但是每层的输入量还是相当大的。因此文章中想到使用瓶颈层的方式来减少输入特征的数量以提高计算效率。具体操作是：对于一个密集连接模块，在每个BN-ReLU-Conv(3×3)构成的小模块前面添加一个BN-ReLU-Conv(1×1)小模块，这些小模块中1×1卷积会产生 $4k$ ( $k$ 为增长率)个特征图以减少实际输入3×3卷积中的特征图数量。文章中把这个添加了瓶颈层的网络称为DenseNet-B。

7、压缩

为了提高模型的紧凑性，文章中进一步减少过渡层产生的特征图数量，假设 $\theta$ 为压缩因子，输入过渡层的特征图数目为 $m$ ，则输出过渡层的特征图数目为 $\thetam$ $\theta m$ 。文章中将 $\theta< 1$ 的DenseNet称为DenseNet-C，将 $\theta< 1$ 并添加了瓶颈层的DenseNet称为DenseNet-BC。

8、实施细节