Scale-Transferrable Object Detection算法详解(基于多尺寸目标检测)

论文背景

论文名称:Scale-Transferrable Object Detection
论文日期:2018年提交至CVPR

算法背景

在目标检测领域,针对多尺寸对象的检测一直是一个难点,本文提出了一个名为STDN算法,可转化尺寸检测算法。

  • 不同于之前的算法:利用网络的多个网络层的特征映射进行结合预测。
  • STDN:利用具有向量化的超分辨率网络层(又被称为可转换尺寸层/模块)显式地探索跨多个检测标度的跨尺度一致性特性。

尺寸转化模块适用于基础网络,只有一点计算消耗。

尺寸转化模块与 DenseNet 网络结合,组成一个one-stage目标检测器。

本文在PASCAL VOC 2007 与 MS COCO两个数据集上进行了测试实验。

算法简介

多尺寸问题一直是目标检测领域的一个难点,为了解决这一问题,多种方法被提出:

  • 图片金字塔,获得不同尺寸的特征。 但是会增加内存与计算消耗。
  • RPN自动提取特征,例如Faster R-CNN使用一层神经网络以及一个特征映射预测不同尺寸与比例的候选区域。但是卷积神经网络每一层的感受野是固定的,而待检测对象的尺寸是不确定的,会导致检测准确率下降。
  • 利用不同深度的网络层的特征映射预测不同尺寸的对象,例如SSD, MS-CNN。浅层的特征图具有更小的感受野,用于预测小尺寸的对象,而深层的特征图具有更大的感受野,用于预测大尺寸对象。但是浅层特征图具有更少的语义信息,会影响检测准确率。
  • 结合不同网络层的语义信息,例如FPN,ZIP,DSSD等。一个由上而下的结构用于结合不同深度的特征图,从而获得所有尺寸的更多语义信息。但是特征金字塔的构造会需要添加多余的网络层,从而导致计算量增加。
    在这里插入图片描述

STDN:获得高级语义多尺寸特征图,同时不会影响检测速率将STM嵌入到DenseNet网络,DenseNet网络结构就是结合结合低层与高层的特征,从而得到更强大的特征。DenseNet的表现优于ResNet,是2018年发表在CVPR上的一篇文章。

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值