深度学习研究理解7:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

本文介绍了何恺明的研究,将Spatial Pyramid Pooling(SPP)结构应用于深度卷积网络,解决了CNN对固定尺寸输入的依赖,提高了分类和检测任务的准确性。SPP通过多级pooling处理不同尺度的输入,提供固定输出特征,增强了网络对物体大小变化的鲁棒性。
摘要由CSDN通过智能技术生成

本文是MSRA何恺明研究员于14年撰写的论文,主要是把经典的Spatial Pyramid Pooling结构引入CNN中,从而使CNN可以处理任意size和scale的图片;这中方法不仅提升了分类的准确率,而且还非常适合Detection,比经典的RNN快速准确。

一:介绍

目前流行的CNN都需要固定size和scale的输入图片;所以基本上都是通过剪裁(crop)和wrap(这个不知道怎么翻译)。这种处理方式有三个弊端

1,剪裁的图图片可能不包含整个物体

2,wrap导致物体变形

3,当物体大小改变时,预定义的scale可能不适合物体的变化

CNN网络对于固定输入的要求,主要在全连接的分类器层,而特征提取层可以通过控制子采样比例和filter尺寸来调节,来接受各种scale和size的输入,得到固定的特征输出。

本文引入Spatial PyramidPooling 层SPP,通过SPP来移除CNN对于固定输入的要求,SPP操作类似深层的信息“融合”。这种深层的信息融合类似人脑的分级信息处理方式;当我们看到一个物体时,在一开始我们把物体看成一个整体而不是剪裁一个部分;通过融合先前处理的信息,大脑处理在深层阶段识别各种形状的物体。

SPP结构从细密和粗糙级别上分割图像,然后融合局部的特征。SPP有3个优势:

1,任任意size和scale输入下,产生固定的输出特征

2,使用多级spatial bins(多个尺寸的pooling),多级pooling对于物体形变具有鲁棒性。

SPP的优势,可以让我们:1,生产整个图片的特征,用于测试;2,允许我们在各种size和scale下训练网络,可以增加样本个数,防止过拟合。(类似数据增益)

二:SPP-net

评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值