目标检测之DSOD：SSD算法的优化

最新推荐文章于 2024-08-12 14:50:42 发布

BigCowPeking

最新推荐文章于 2024-08-12 14:50:42 发布

阅读量6.7k

点赞数 1

分类专栏：目标检测文章标签： DSOD

目标检测专栏收录该内容

61 篇文章 7 订阅

订阅专栏

github代码：https://github.com/szq0214/DSOD

由于深度学习需要大量的训练数据，而针对特定任务需求的训练样本往往是有限的，通常情况下，目标检测算法会先使用在海量数据（如ImageNet数据集）上训练好的分类模型对需要训练的网络参数进行初始化（pre-train,预训练），然后使用训练样本对网络参数进行微调(fine-tune)。

但这种预训练结合微调的方法存在以下几点问题：（1）对于目标检测任务而言，由于其损失函数和目标类别分布与分类模型存在差异，其搜索/优化空间是不同的，所以使用预训练模型容易求得局部而非全局最优解。虽然利用训练数据对网络进行微调可以在一定程度上缓解这种现象，但仍然不能从本质上解决问题。（2）预训练模型一般是基于RGB图像训练得到的，对于差异较大的问题域，如针对深度图像、多光谱图像和医学影像的目标检测，要从预训练的分类模型迁移学习为目标检测模型难度非常大。（3）预训练的分类模型通常具有较为复杂的网络结构，不仅参数规模大，其特定的网络结构也限制了目标检测模型的设计空间，难以对模型的结构进行灵活地调整。
因此，这篇文章提出了一种无需预训练，直接基于训练样本来训练目标检测模型的方法。

算法框架

网络可以分为两个部分：用于特征提取的backbone sub-network和用于预测的front-end sub-network。backbone sub-network使用的是DenseNets的变形，含有一个stem block，4个dense block，2个transition layer和2个transition w/o pooling layer；front-end sub-network基于多尺度的响应图做出预测，同样使用dense的架构。其网络结构如下图所示：
Architecture

网络设计原则

论文提出了四点网络设计原则：
（1）proposal-free
目标检测算法一般可以分为三类：一类需要借助额外的算法来产生目标候选区域，如R-CNN、Fast R-CNN;一类通过自身的RPN(Region Proposal Network)结构生成proposal，如Faster R-CNN、R-FCN；最后一类则直接回归目标的位置，而不需要提取proposal，如YOLO、SSD。
论文发现，只有不基于region proposal的方法，即第三类方法，才可以不使用预训练模型直接训练网络。原因是对于前两种方法来说，RoI池化过程是基于每一个proposal的，这阻碍了梯度从region level传播到整个卷积层，所以对于这两种方法来说，使用预训练模型的参数对RoI前面的层进行初始化是有必要的。
因此，论文在设计网络结构时，是基于proposal-free的SSD架构。
（2）deep supervision
deep supervision的核心思想是将损失函数作用在隐含层上，而不是仅仅作用在输出层上，从而使梯度信号能传递到靠近输入层的神经元，以缓解梯度消失的问题，但其需要对隐含层引入companion objective，比较复杂，因此论文选用的是DenseNets所提出的dense layer-wise connection的结构。
其基本结构为dense block，所谓dense block，就是每一个层都与其前面所有的层连接，因此在使用单一的损失函数时，前面的层也可以接收到目标函数的监督信号。
此外，论文还引入了transition w/o pooling layer，其目的在于使得在使用更多dense block的同时，仍然能保持特征映射图最终的分辨率。在原DenseNets算法中，由于每一个transition layer都包含一次池化操作，这会降低特征图的分辨率，因此要想保持网络输出的尺寸不变，则dense block的数量必须是固定的，要构造更深的网络，只能考虑在block内部添加层。而transition w/o pooling layer只使用了1*1的卷积，而没有进行池化操作，故其不会降低特征映射图的分辨率，所以论文使用了transition w/o pooling layer来消除网络结构对dense block数量的限制。
（3）stem block
受Inception-v3和v4的启发，论文构建stem block时使用的是三个层叠的3*3卷积层和一个2*2的最大值池化层，第一个卷积层后设置步长为2的池化层，后两个卷积层后设置步长为1的池化层。这样做的原因是，论文发现与DenseNets原有的结构（7*7的卷积层和3*3的最大值池化层）相比，这样的设计可以减少输入图像中的信息丢失，从而训练出更加鲁棒的检测器。
（4）dense prediction structure
论文借鉴了SSD的网络结构，但使用了dense layer-wise connection的思想，其与plain connection的对比如图所示。
Dense structure
左图为SSD的结构。SSD在进行预测时，使用了6个尺度的特征映射图，其中分辨率最高的特征图取自backbone sub-network的中间层，分辨率为38*38，用来加强对小尺寸目标的检测能力。每两个不同尺度的特征图之间使用的是具有bottleneck结构的transition layer。
可以看到，在SSD中，每一层是由其上一层直接转换而来，这里论文改为使用dense的结构，使得每一层都结合了多个不同尺度层的信息，其结构如右图所示。为了简单起见，论文规定预测所基于的所有特征层都具有相同的输出维度，除第一个尺度的层外，其它层都有一半的特征图是前面的层经卷积操作转换而来，而另一半的特征图则直接由邻接的具有更高分辨率的层下采样而来，这样每一层便包含了其先前的具有不同分辨率的所有层信息。下采样的具体实现过程是先做步长为2的池化操作，使得特征图尺寸一致以便做连接，然后使用1*1的卷积减少50%的输出channel，从而保证特征图数量的匹配。池化操作先于卷积操作是为了减少计算的成本。

实验结果

论文根据它所提出的网络设计原则对SSD重新进行了设计，以更小巧的模型架构取得了超越state of the art方法的结果，其不仅有实时的检测速度，且网络参数数量仅为SSD的1/2，R-FCN的1/4，Faster RCNN的1/10。论文的代码和模型地址为：DSOD代码
论文通过实验对其提出的几点网络设计原则进行了验证，实验结论如下：
（1）Proposal-free Framework
不使用预训练模型，Faster R-CNN和R-FCN无法收敛，SSD可以收敛但比使用预训练模型时效果差很多。
（2）Deep Supervision
使用Deep Supervision可以在不使用预训练模型的情况下，使网络的检测精度超过预训练结合微调的SSD网络。
(5) Transition w/o Pooling Layer：
使用Transition w/o Pooling Layer可以将性能提高1.7%。
（3）Stem Block
使用Stem Block可以将性能提高2.8%。
（4）Dense Prediction Structure:
由于需要进行下采样等操作，使用Dense Prediction Structure算法运行速度会比plain structure稍慢，但可以将检测精度提高0.4%，同时减少3.4M的参数数量。
此外，论文还对DSOD进行了预训练，得到了一个很有意思的实验结果：使用预训练结合微调的方式，DSOD的性能比不使用预训练模型时降低了0.4%，其原因有待深入研究。