Abstract
SPP-net提出了空间金字塔池化层来解决CNN只是输入固定尺寸的问题,因为单固定尺寸的输入会影响识别效果,并且对于多尺度图像的情况下鲁棒性不好。SPP-net很好的解决了以上问题,对于任意尺度图像都可以提取出固定维度的特征,实验证明SPP-net对分类任务(不同网络结构)和目标探测任务都有积极的作用。RCNN则是将候选区送入模型,这样会非常耗时,而且SPP-net网络以整张图像作为输入节省了大量时间,速度快了24~64倍。论文网络结构如图所示:
spatial pyramid pooling layer原理图,如图所示输入可以是多种尺寸的,进而得到不同尺寸的特征图,但我们对其平均分成16、4、1份然后进行池化下采样,这样不论特征图是什么尺寸的都可以转换为固定的尺度:
其实,此论文最令人迷惑的点就是特征图---原图的ROI映射,我们根据候选区ROI(原图上的)坐标映射在特征图上响应的区域边框,这样就避免了多次重复的进行特征提取浪费计算力,文章也提到了特征图和原图ROI的映射原理。映射原理是将原图坐标(x,y)映