深度学习研究理解7：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

最新推荐文章于 2024-08-22 11:56:04 发布

whiteinblue

最新推荐文章于 2024-08-22 11:56:04 发布

阅读量2.6w

点赞数 7

文章标签： SPP 卷积网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/whiteinblue/article/details/43415035

版权

本文介绍了何恺明的研究，将Spatial Pyramid Pooling（SPP）结构应用于深度卷积网络，解决了CNN对固定尺寸输入的依赖，提高了分类和检测任务的准确性。SPP通过多级pooling处理不同尺度的输入，提供固定输出特征，增强了网络对物体大小变化的鲁棒性。

摘要由CSDN通过智能技术生成

本文是MSRA何恺明研究员于14年撰写的论文，主要是把经典的Spatial Pyramid Pooling结构引入CNN中，从而使CNN可以处理任意size和scale的图片；这中方法不仅提升了分类的准确率，而且还非常适合Detection，比经典的RNN快速准确。

一：介绍

目前流行的CNN都需要固定size和scale的输入图片；所以基本上都是通过剪裁（crop）和wrap（这个不知道怎么翻译）。这种处理方式有三个弊端

1，剪裁的图图片可能不包含整个物体

2，wrap导致物体变形

3，当物体大小改变时，预定义的scale可能不适合物体的变化

CNN网络对于固定输入的要求，主要在全连接的分类器层，而特征提取层可以通过控制子采样比例和filter尺寸来调节，来接受各种scale和size的输入，得到固定的特征输出。

本文引入Spatial PyramidPooling 层SPP，通过SPP来移除CNN对于固定输入的要求，SPP操作类似深层的信息“融合”。这种深层的信息融合类似人脑的分级信息处理方式；当我们看到一个物体时，在一开始我们把物体看成一个整体而不是剪裁一个部分；通过融合先前处理的信息，大脑处理在深层阶段识别各种形状的物体。

SPP结构从细密和粗糙级别上分割图像，然后融合局部的特征。SPP有3个优势：

1，任任意size和scale输入下，产生固定的输出特征

2，使用多级spatial bins（多个尺寸的pooling），多级pooling对于物体形变具有鲁棒性。

SPP的优势，可以让我们：1，生产整个图片的特征，用于测试；2，允许我们在各种size和scale下训练网络，可以增加样本个数，防止过拟合。（类似数据增益）

二：SPP-net

最低0.47元/天解锁文章

关注

7
点赞
踩
49

收藏

觉得还不错? 一键收藏
12
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 12

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。