FPN结构详解

注:文章是学习B站:霹雳吧啦Wz 的学习笔记哦,真的是位很棒的up,有兴趣的同学可以去看看~
(a)将图片伸缩成不同尺寸再单独进行预测
(b)标准的FASTRCNN(对于小尺寸不友好)
(c)SSD类似
(d)不同特征图上的特征进行融合再进行预测

backbone是用于提取特征的主干网络,提取目标的位置大小形状等特征,常见的目标检测backbone包括AlexNet、VGG、ResNet、DenseNet、MobileNet等,较深的backbone网络可以提供更好的性能,但也会带来更多的计算成本。FPN通过在backbone网络中增加额外的横向连接和上采样模块,从而产生了一系列具有不同尺度的特征图,并通过自顶向下的路径传递信息,并在不同层次上进行融合,以实现对不同尺度目标的更好表示和检测。

“各个参数的梯度”指的就是在反向传播算法中计算出来的,用于更新模型中各个参数的值,表示了当前参数取值使得损失函数变化的速率,使得模型在训练数据上拟合更好的目标函数。
就常见的几个目标检测backbone进行比较:

VGG:VGG是一个比较经典的深度卷积神经网络,它有多个版本,其中VGG16和VGG19是最为常用的。VGG网络具有较深的层数,可以提取出较为复杂的特征,但由于参数量较大,在计算效率方面相对较低。

ResNet:ResNet是一种残差网络,其主要特点是通过跳跃连接(shortcut
connection)将多个卷积层串联起来,从而避免了深度网络中梯度消失或爆炸的问题,并且可以有效地加速网络训练。ResNet在ImageNet数据集上取得了很好的表现,成为了目标检测领域中广泛应用的backbone之一。

MobileNetV2:MobileNetV2是一种轻量级的卷积神经网络,主要采用深度可分离卷积来减少计算量,并且引入了线性瓶颈模块来增加模型的表达能力。MobileNetV2在计算量和模型大小方面都比较小,适合于移动设备等资源受限的场景。

EfficientNet:EfficientNet是一种基于网络缩放的策略来提高模型性能和计算效率的backbone网络。EfficientNet采用了一种统一的网络缩放方法来平衡深度、宽度和分辨率,并且通过自动搜索得到了一组最优的网络超参数。EfficientNet在ImageNet上取得了很好的表现,同时也适合于目标检测等任务。

在这里插入图片描述
11的卷积核是用来调整channel的,最上面的上采样调节长宽(比如77通过上采样变成下一层的一样尺寸14*14,再将特征图相加)
P6是对P5下采样得到的 == P6只用于RPN,不在Fast-RCNN==

在目标检测任务中,需要先找出图像中可能存在物体的区域(称为候选框),然后再对这些候选框进行分类和定位。

RPN主要负责生成这些候选框,它采用卷积神经网络对输入的特征图进行滑动窗口操作,将每个窗口映射到一个固定大小的向量上,并输出该窗口包含物体的概率以及对应的坐标回归参数。

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值