【目标检测经典模型比较】--SSD RetinaNet EfficientDet

SSD RetinaNet EfficientDet

请添加图片描述

1.SSD(2016)

在这里插入图片描述
在这里插入图片描述

创新:

  1. 多尺度检测:SSD的一个主要贡献是在不同的输出层上使用不同比例的默认框
  2. 采用预设边界框,我们习惯称它为anchor(在SSD论文中叫default bounding boxes),预测框的尺寸在anchor的指导下进行微调。默认框具有不同的尺度和纵横比,并在每个特征图位置进行预测。这允许模型高效地离散化可能的输出框形状的空间。
  3. 数据增强,水平翻转,色域扭曲。
  4. 使用小卷积核进行预测。SSD使用3x3的小卷积核直接预测每个默认框的类别得分和边界框偏移量,而不是像YOLO那样使用全连接层。这使得训练和推理更快

网络结构:

  1. 过程:SSD方法输入尺寸为300 × 300,基于前馈卷积网络,特征提取部分采用VGG16,在基础网络的末端添加了几个特征层,其产生固定大小的边界框集合和不同尺度和纵横比的默认框的偏移量及其相关置信度,随后是非最大抑制步骤以产生最终检测。
    在这里插入图片描述
  2. 在网络的末尾,也就是检测head部分,利用6个特征层进行预测。具体地,将6个特征层分别进行3*3卷积,通道数根据特征层顺序、anchor数、类别数进行变换。

损失函数包括两部分的加权:
1.位置损失函数Smooth L1 2.置信度损失函数softmax

优点:

  1. 精度高,速度快,优于Faster R-CNN和YOLO
  2. 灵活:SSD模型在base网络的多个尺度的特征层上添加了额外的卷积层用于边界框预测,这使得模型可以预测不同大小的物体。这比仅使用顶层特征图(如YOLO)更灵活。
  3. 网络结构更简单,只添加一些卷积层,YOLO使用了BN等。

缺点: 小目标效果差,需要更大的输入图像大小和更多的数据增强来提高小目标的检测精度。

论文贡献:

  1. 介绍了SSD,一种用于多个类别的单镜头探测器,比以前最先进的单镜头探测器(YOLO)更快,并且更准确,实际上与执行显式区域建议和池化(包括更快的R-CNN)的较慢技术一样准确。
  2. SSD的核心是使用应用于特征映射的小卷积过滤器来预测一组固定的默认边界框的类别分数和框偏移。
  3. 为了达到较高的检测精度,我们从不同比例尺的特征图中产生不同比例尺的预测,并通过纵横比明确地分离预测。
  4. 这些设计特点导致简单的端到端训练和高精度,即使在低分辨率输入图像,进一步提高速度与精度的权衡。

2.RetinaNet(2017)Focal Loss for Dense Object Detection

请添加图片描述
请添加图片描述
提出以一个新损失函数Focus loss来解决class imbalance现象,该loss函数重新改造了标准的交叉熵损失(standard cross entropy loss),是一个动态尺度的交叉熵损失(dynamically scaled cross entropy loss),随着正确样本的置信度上升scale会降低至0。这个损失函数能减小分配给良好分类的样本的损失权重,并聚焦于那些难样本。

为了评估这个损失函数Focus loss的有效性,作者设计并训练了一个one-stage的样本密度检测器——RetinaNet,结果表明Focus loss来解决class imbalance的方案远远好于启发式采样或者难样本挖掘等以往应用在one-stage中的方案,使用focus loss时RetinaNet既有one-stage的速度,还超过了当时所有最好的two-stage detector的精度。

网络结构

RetinaNet,一种简单而高效的目标检测网络,由一个特征提取网络(ResNet)一个特征融合网络(FPN)两个任务特定子网络(分类和回归) 组成
在这里插入图片描述

  1. Retinanet 的 Backbone 为 ResNet50。
    ResNet50 及更深的 ResNet 网络使用的是 bottleneck 残差块。
    在这里插入图片描述
  2. Neck
    Neck 模块即为 FPN 网络结构。FPN 模块接收 c3, c4, c5 三个特征图,输出 P2-P7 五个特征图,通道数都是 256, stride 为 (8,16,32,64,128),其中大 stride (特征图小)用于检测大物体,小 stride (特征图大)用于检测小物体。P6 和 P7 目的是提供一个大感受野强语义的特征图,有利于大物体和超大物体检测。注意:在 RetinaNet 的 FPN 模块中只包括卷积,不包括 BN 和 ReLU。
  3. Head目标边界框回归和分类子网络
    Head 即预测头网络。
    Retinanet 的 neck 输出 5 个分支,即输出 5 个特征图。head 模块包括分类和位置检测两个分支,每个分支都包括 4 个卷积层,但是 head 模块的这两个分支之间参数不共享,分类 Head 输出通道是 A*K,A 是类别数;检测 head 输出通道是 4*K, K 是 anchor 个数, 虽然每个 Head 的分类和回归分支权重不共享,但是 5 个输出特征图的 Head 模块权重是共享的。
  4. loss由分类的Focal loss 和边框回归的smooth L1 loss组成,其中Focal loss 要计算所有anchor的loss,这一点与其他方法不同,其他方法至少选择一部分的anchor。Focal loss,该损失函数通过抑制那些容易分类样本的权重,将注意力集中在那些难以区分的样本上,有效控制正负样本比例,防止失衡现象。

优点:

  1. Focal Loss能够有效地解决类别不平衡问题,提高稀疏的难样本的训练效果,避免了复杂的采样或重新加权策略。
  2. RetinaNet结构简单,易于实现,能够利用多尺度特征进行目标检测,适用于不同大小的物体。
  3. RetinaNet在COCO数据集上取得了当时最佳的单阶段检测结果,与双阶段检测器相当或更好。

缺点:

  1. Focal Loss需要调整一个超参数α来平衡正负样本的损失权重,这可能需要一些实验来确定最优值。
  2. RetinaNet相比于其他单阶段检测器,需要更多的计算资源和训练时间,因为它使用了更深的特征提取网络和更多的预测分支。
  3. RetinaNet没有考虑目标之间的上下文关系和空间约束,这可能会影响一些复杂场景下的检测效果。

3.EfficientDet(2020)

请添加图片描述
请添加图片描述
请添加图片描述
请添加图片描述

贡献:

  1. 提出了一种加权双向特征金字塔网络(BiFPN),它可以实现简单快速的多尺度特征融合;
  2. 我们提出了一种复合缩放方法,该方法可以同时对所有骨干网络、特征网络和盒/类预测网络的分辨率、深度和宽度进行统一缩放。
  3. 基于这些优化和更好的主干,我们开发了一个新的对象检测器系列,称为EfficientDet ,它在广泛的资源限制范围内始终实现比现有技术更高的效率。特别是,在单模型和单尺度下,我们的EfficientDet-D7在COCO测试开发上实现了最先进的55.1 AP,参数量大大减小。

解决的问题:

挑战1:高效的多尺度特征融合
之前的问题: 不同的输入特征的分辨率不同,对融合输出特征的贡献不均
解决方法: 本文提出了一个简单而高效的加权双向特征金字塔网络(BiFPN)
实现效果: 该网络引入了可学习的权重以了解不同输入特征的重要性,同时反复多尺度特征融合。

挑战2:模型缩放
之前的问题: 之前的工作主要依赖于大的backbone网络或者更大的输入图片尺寸来获得更好的准确率
解决方法: 本文提出了一种复合缩放方法,并提出了一个新的目标检测器系列—EfficientDet
实现效果: 与以前的物体检测器相比,它以更少的参数和FLOP持续获得更高的精度

创新点:

  1. BiFPN:一种简单而高效的加权双向特征金字塔网络(BiFPN),该网络引入可学习的权重来学习不同输入特征的重要性,同时反复应用自顶向下和自底向上的多尺度特征融合。探究不同的输入特征在不同的分辨率下,融合输出特征的贡献是不相等的。
    在这里插入图片描述
    图(a)为FPN的结构,传统的自上而下聚合多尺度特征图
    图(b)是PANet,是在(a)的基础上改进添加自下而上的结构
    图(c)是NAS-FPN, 采用了NAS 策略搜索最佳 FPN 结构
    图(d)就是本论文提出的BiFPN的思想,在PANet的基础上,去掉了只有一个输入边的节点(P3和P7的中间节点),增加了输入节点(左边)到输出节点(右边)的直接跳连,然后和NAS-FPN一样,也是重复叠加了几次这种block。

  2. 提出了一种用于目标检测器的复合缩放方法,该方法对所有骨干网络、特征网络、盒/类预测网络共同缩放分辨率/深度/宽度

  3. 最近引入的EfficientNets[39]比以前常用的骨干网实现了更好的效率。结合我们提出的BiFPN和复合尺度,我们开发了一个新的目标检测器系列,名为EfficientDet,与以前的目标检测器相比,它始终以更少的参数和flop实现更高的精度。
    在这里插入图片描述

  • 10
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值