DSSD理论+源码学习（1）

最新推荐文章于 2022-09-15 14:44:35 发布

wenhoulu6153

最新推荐文章于 2022-09-15 14:44:35 发布

阅读量3.1k

点赞数 2

分类专栏：目标检测文章标签：目标检测

本文链接：https://blog.csdn.net/wenhoulu6153/article/details/81944700

版权

本文介绍了DSSD（Deeply-Supervised Single Shot Detector）在SSD基础上的改进，针对小物体检测效果不佳的问题，探讨了DSSD的预测模块、反卷积模块以及基础网络的改变。文章还概述了DSSD的整体代码结构，并预告了对ssh.py源码的后续分析。

摘要由CSDN通过智能技术生成

DSSD理论+源码学习（1）

前段时候开始踏坑detection。因为项目需要，所以也开始摸爬滚打地一点一点学。昨晚结识了一位类脑实验室的前辈，他对学术的态度以及在csdn上的学习记录很是shock到我。所以自己也开始尝试去记录一些笔记，其一加深自己的理解，其二可以互相交流学习。

DSSD理论+源码学习（1）

什么是DSSD

DSSD是在SSD的基础，第一篇做改进的论文。它的改进背景是基于SSD对于小物体检测的效果并不好。

在引出背景前，先借用下CSDN某大神说过的一段话。
图片描述

背景：

所以检测小目标物体不够鲁棒有什么解决办法呢？作者就想到给检测网络添加上下文信息。因为在SSD中第一个feature map（FM）取的是con4_3层，这层属于偏浅的层，固然它的感受野也不是那么的大。该层所包含的边缘信息较多，语义信息较少。（具体原因不详，目前普遍认为深层FM所带有的语义信息更丰富）

那作者就思考能不能把浅层的FM和深层的FM结合在一起，这样送到检测网络中的特征就既有语义信息又有边缘信息。和该论文很类似的一个工作是FSSD（Feature Fusion Single Shot Multibox Detector ），它的方法也是类似于利用将深浅层信息融合，属于SSD+FPN的结合版。这里就不赘述了～
创新点
（1）预测模块

ssd中的预测模块用的是上图中的（a），本论文中用的是（c）。
作者的理由是：在MS-CNN工作中提到，改进每个任务的子网络可以提高准确率。其实这里就类似于残差网络。具体这样添加的真实意义其实不太清楚，但从结果上来看确实得到了提升。
（2）反卷积模块

为了整合浅层特征图和反卷积层的信息，作者引入了如上图所示的反卷积模块，该模块可以适合整个DSSD架构（figure1 底部实心圆圈）。作者受到论文Learning to Refine Object Segments的启发，认为用于精细网络的反卷积模块的分解结构达到的精度可以和复杂网络一样，并且更有效率。作者对其进行了一定的修改，如上图所示：其一，在每个卷积层后添加批归一化层；其二，使用基于学习的反卷积层而不是简单地双线性上采样；其三，作者测试了不同的结合方式，元素求和（element-wise sum）与元素点积（element-wise product）方式，实验证明点积计算能得到更好的精度。
（3）基本网络：将VGG网络换为Resnet网络目的是为了改善Accuracy。现在许多工作把基本网络从以往的VGG换成resnet后准确率的点多少都会提高。
SSD核心架构

对于最底层的FM，一层一层往上反卷积，并将反卷积的结果和之前下采样的结果通过点积结合在一起。得到新的融合FM放到预测模块中去获得分类及检测结果。

整体代码结构

这里写图片描述

lib文件夹：
1. dataset文件夹
dicom.py：读图，并返回bbox（个数、置信值、位置）、图片等；
data_encoder.py：产生anchor的标签，在测试阶段会对偏移的location进行还原，并NMS（非极大值抑制）
2. model文件夹
resent.py：残差网络的基本网络，用的是resnet50
meter.py：存储参数，更新参数
options.py：超参数的定义
criterion.py：计算每个proposal box的loss
ssd.py：dssd主要网络的构建

ssh.py源码

import torch
import ipdb
import torch.nn as nn
import torch.nn.init as init
import torch.nn.functional as func
from copy import deepcopy
from model.base.resnet import _resnet
from model import criterion

Args = {
    'Base': 'resnext101-32x4d',
    'Base_FN': 6,
    'Base_Extra_FN': 1,
    'Base_Extra_Channels': 1024,
    'Groups': 4,
    'Classes': 1,
    'Anchors': [4, 6, 6, 6, 4, 4],
    'Feature_Channels': [256, 256</