基于飞桨复现目标检测网络EfficientDet，感受CVPR2020的新SOTA算法的威力

百度大脑

于 2020-11-05 18:57:09 发布

阅读量1.2k

点赞数

分类专栏：飞桨PaddlePaddle技术专区文章标签：卷积深度学习人工智能计算机视觉 xhtml

本文链接：https://blog.csdn.net/weixin_45449540/article/details/109523533

版权

本文详细解析了CVPR2020新SOTA算法EfficientDet，它基于EfficientNet并采用BiFPN进行多尺度特征融合。通过参数共享减少模型参数量，实现高效目标检测。在PaddleDetection中复现EfficientDet-D0，性能与原文相符。

摘要由CSDN通过智能技术生成

点击左上方蓝字关注我们

【飞桨开发者说】武秉泓，国内一线互联网大厂工程师，计算机视觉技术爱好者，研究方向为目标检测、医疗影像

内容简介

EfficientDet是由Google Brain于2019年末在目标检测领域所提出的当之无愧的新SOTA算法，并被收录于CVPR2020。本项目对目标检测算法EfficientDet进行了详细的解析，并介绍了基于官方目标检测开发套件PaddleDetection进行模型复现的细节。

EfficientDet源于CVPR2020年的一篇文章

https://arxiv.org/abs/1911.09070（源码：

https://github.com/google/automl/tree/master/efficientdet）, 其主要核心是在已完成网络结构搜索的EfficientNet的基础上，通过新设计的BiFPN进一步进行多尺度特征融合，最后经由分类/回归分支生成检测框，从而实现从高效分类器到高效检测器的拓展。在整体结构上，EfficientDet与RetinaNet等一系列anchor-based的one-stage detector无明显差别，但在每个单一模块上，EfficientDet在计算/存储资源有限的情况下将模型性能提升到了极致。

EfficientDet与现有其他主流模型的性能比对：

EfficientDet网络结构：

如上图从左至右所示，EfficientDet总共分为三个部分，依次为检测器的特征提取模块（Backbone）EfficientNet，检测器的多尺度特征融合模块（Neck）BiFPN，以及检测器的分类/回归预测模块（Head）Class/Box prediction net，其具体模型结构定义代码可见：

class EfficientDet(object):
    """
    EfficientDet architecture, see https://arxiv.org/abs/1911.09070
    Args:
        backbone (object): backbone instance
        fpn (object): feature pyramid network instance
        retina_head (object): `RetinaHead` instance
    """
    __category__ = 'architecture'
    __inject__ = ['backbone', 'fpn', 'efficient_head', 'anchor_grid']

    def __init__(self, backbone, fpn, efficient_head, anchor_grid, box_loss_weight=50.):
        super(EfficientDet, self).__init__()
        self.backbone = backbone
        self.fpn = fpn
        self.efficient_head = efficient_head
        self.anchor_grid = anchor_grid
        self.box_loss_weight = box_loss_weight

    def build(self, feed_vars, mode='train'):
        im = feed_vars['image']
        if mode == 'train':
            gt_labels = feed_vars['gt_label']
            gt_targets = feed_vars['gt_target']
            fg_num = feed_vars['fg_num']
        else:
            im_info = feed_vars['im_info']
        mixed_precision_enabled = mixed_precision_global_state() is not None
        if mixed_precision_enabled:
            im = fluid.layers.cast(im, 'float16')
        body_feats = self.backbone(im)
        if mixed_precision_enabled:
            body_feats = [fluid.layers.cast(f, 'float32') for f in body_feats]
        body_feats = self.fpn(body_feats)
        anchors = self.anchor_grid()

        if mode == 'train':
            loss = self.efficient_head.get_loss(body_feats, gt_labels, gt_targets, fg_num)
            loss_cls = loss['loss_cls']
            loss_bbox = loss['loss_bbox']
            total_loss = loss_cls + self.box_loss_weight * loss_bbox
            loss.update({'loss': total_loss})
            return loss
        else:
            pred = self.efficient_head.get_prediction(body_feats, anchors, im_info)
            return pred

在主体结构上，EfficientDet使用了从简易到复杂的不同的配置来做到速度和精度上的权衡，以EfficientDet-D0为例，模型组网&训练配置参数可见(YML文件格式)：

architecture: EfficientDet
…
pretrain_weights: https://paddle-imagenet-models-name.bj.bcebos.com/EfficientNetB0_pretrained.tar
weights: output/efficientdet_d0/model_final
…
EfficientDet:
  backbone: EfficientNet
  fpn: BiFPN
  efficient_head: EfficientHead
  anchor_grid: AnchorGrid
  box_loss_weight: 50.

EfficientNet:
  norm_type: sync_bn
  scale: b0
  use_se: true

BiFPN:
  num_chan: 64
  repeat: 3
  levels: 5

EfficientHead:
  repeat: 3
  num_chan: 64
  prior_prob: 0.01
  num_anchors: 9
  gamma: 1.5
  alpha: 0.25
  delta: 0.1
  output_decoder:
    score_thresh: 0.05   # originally 0.
    nms_thresh: 0.5
    pre_nms_top_n: 1000  # originally 5000
    detections_per_im: 100
    nms_eta: 1.0

AnchorGrid:
  anchor_base_scale: 4
  num_scales: 3
  aspect_ratios: [[1, 1], [1.4, 0.7], [0.7, 1.4]]
…

EfficientNet是由同作者Mingxing Tan发表于ICML 2019的分类网络，主要是在计算资源有限的情况下，考虑如何更高效地进行网络结构组合，从而使得模型具有更高的分类精度。在EfficientNet的网络设计时，其主要考虑三个维度对模型性能和资源占用的影响：网络深度(depth)、网络宽度(width)和输入图像分辨率 (resolution)大小。在进行网络结构搜索的背景下，作者所定义的优化目标如下：