一、起源
1、因为在R-CNN的全连接层的限制,所以要求输入层的图像尺寸都一致。然而,这会使损失进一步增大。
2、因为不同建议框的有不同的尺寸,因此会有重叠的部分,造成大量重复的运算。
二、原理
1、对原图进行一次全图特征提取,得到全局特征图。
2、在特征图对应的位置,找到建议框对应的映射区域。
3、将次区域作为每个建议框的卷积特征输入SPP层和之后的层。
4、Spp层通过空间金字塔将不同的输入固定为同一尺寸的输出
--SPP层放在最后一层之后,用于特征图的池化,产生固定长度的输出,将其作为全连接层的输入。
--特征图被划分为多个数量固定,尺寸不同的局部空间块
--对每个空间块使用最大池化的方法
--输出k*M维的向量。k为每一点有多少个anchor,M为最大池化后的空间块。如M=16+4+1=21维。形成一个固定的长度输入全连接层