Feature Pyramid Networks for Object Detection 总结

最新推荐文章于 2024-08-22 11:21:17 发布

xiamentingtao

最新推荐文章于 2024-08-22 11:21:17 发布

阅读量1.9w

点赞数 23

分类专栏：深度学习文章标签： FPN

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiamentingtao/article/details/78598027

版权

最近在阅读FPN for object detection,看了网上的很多资料，有些认识是有问题的，当然有些很有价值。下面我自己总结了一下，以供参考。

1. FPN解决了什么问题？

答：在以往的faster rcnn进行目标检测时，无论是rpn还是fast rcnn，roi 都作用在最后一层，这在大目标的检测没有问题，但是对于小目标的检测就有些问题。因为对于小目标来说，当进行卷积池化到最后一层，实际上语义信息已经没有了，因为我们都知道对于一个roi映射到某个feature map的方法就是将底层坐标直接除以stride,显然越后，映射过去后就越小，甚至可能就没有了。所以为了解决多尺度检测的问题，引入了特征金字塔网络。

下面我们介绍一下特征金字塔网络。如下引用[1]

图(a)是相当常见的一种多尺度方法，称为featurized image pyramid,这种方法在较早的人工设计特征（DPM）时被广泛使用,在CNN中也有人使用过。就是对input iamge进行multi scale，通过设置不同的缩放比例实现。这种可以解决多尺度，但是相当于训练了多个模型（假设要求输入大小固定），即便允许输入大小不固定，但是也增加了存储不同scale图像的内存空间。
图(b)就是CNN了，cnn相比人工设计特征，能够自己学习到更高级的语义特征，同时CNN对尺度变化鲁棒，因此如图，从单个尺度的输入计算的特征也能用来识别，但是遇到明显的多尺度目标检测时，还是需要金字塔结构来进一步提升准确率。
从现在在imageNet和COCO数据集上领先的的一些方法来看，在测试的时候都用到了featurized image pyramid方法,即结合(a)，(b)。说明了特征化图像金字塔的每一级的好处在于，产生了多尺度的特征表示，每一级的特征都有很强的语义（因为都用cnn生成的特征），包括高分辨率的一级（最大尺度的输入图像）。
但是这种模式有明显的弊端，相比于原来方法，时间增长了4倍，很难在实时应用中使用，同样，也增大了存储代价，这就是为什么只是在测试阶段使用image pyramid。但是如果只在测试阶段使用，那么训练和测试在推断的时候会不一致。所以，最近的一些方法干脆舍弃了image pyramid。

但是image pyramid不是计算多尺度特征表示的唯一方法。deepCNN能够层次化的特征，而且因为池化的作用，会产生金字塔形的特征，具有一种内在的多尺度。但是问题在于，高分辨率的map（浅层）具有low-level的特征，所以浅层的目标识别性能较弱。这也是不同level融合的目的。

如图(c)，SSD较早尝试了使用CNN金字塔形的层级特征。理想情况下，SSD风格的金字塔重利用了前向过程计算出的来自多层的多尺度特征图，因此这种形式是不消耗额外的资源的。但是SSD为了避免使用low-level的特征，放弃了浅层的feature map，而是从conv4_3开始建立金字塔，而且加入了一些新的层。因此SSD放弃了重利用更高分辨率的feature map，但是这些fe

最低0.47元/天解锁文章

评论 13

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。