Face Paper: DSSD论文详解

Motivation

通过增加context的信息来提高目标检测的准确率是一个常见的方法,在SSD当中,作者没有利用到context的信息,因此,作者在DSSD里面尝试通过加入context来改善SSD的性能

Framework

dssd 
上图表示SSD的基本结构,采用的是VGG作为base network,后来有作者新加的SSD layer,然后在选择的多尺度的feature map上做预测.

下图表示DSSD的基本结构,采用的resnet-101作为base network,后面是新加的DSSD layer,整个DSSD采用的是hourglass(也就是encoder-decoder)的结构,low-resolution的feature map作为context,通过deconvolution和前面encoder部分2x resolution的feature map进行融合(deconvolution module),然后通过一个更好的prediction module来做预测(SSD直接预测)

Prediction Module

dssd 
作者尝试了这么四种prediction module,其中(a)是SSD用的,直接在feature layer上预测 
(b)是设计成residual block的预测模块 
(c)相对比就是把identity mapping换成了1x1卷积 
(d)是stacked (c)

Deconvolution Module

dssd 
这个是作者设计的deconv分支,作者把上面的deconv分支设计成一个比较浅层的模型,是考虑到inference的时间以及随机初始化参数太多不好训练

Experiment

训练的时候需要注意的是,作者用训练好的SSD来初始化DSSD的卷积层,然后固定卷积层参数,只训练后面的反卷积模块。

dssd 
这个是在PASCAL VOC2007上的测试结果,当输入的图像尺寸比较小的时候,直接把vgg换成resnet效果反而会下降,但是如果提高输入图像的尺度的话,把vgg替换成resnet-101效果会更好,作者解释说对于resnet这样非常深的网络,需要更大的尺度输入来让深层的feature map仍然保持空间信息。更重要的是,DSSD比对应的SSD的效果要更好,这说明作者的设计是合理有效的。特别是对于那些具有特定背景信息的物体和小目标。比如对于飞机(背景-天空),牛羊(背景-草地),小目标比如bottle,DSSD的效果都要更好一些。

inference time

dssd 
当然,因为把vgg换成了resnet,后来还有新加的prediction module和deconvolution module,DSSD要比SSD慢很多。

总的来说,DSSD通过encoder-decoder的网络结构,将high-level的context信息更丰富的feature map和low-level的feature map进行融合,在两类目标上的检测效果有所提升:第一是小目标以及dense objects,第二是具有显著区分度背景的目标。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值