1.卷积操作本身就是一个卷积核(滑动窗口)在特征图(图像)的滑动操作。
2.这里滑动窗口的目的是为了取每个窗口的特征:
对于VGG16,最后一个卷积层(conv5_3)的feature map个数为512,使用3x3的卷积核可以每张feature map上获取一个1x1的特征,总共是512的一个特征向量,这个向量也就是当前滑窗对应的特征。
3.为什么使用3x3的滑窗而不是2x2或者其他,个人理解:因为3x3在原图像的感受野是228x228, 对于尺度为128,256, 512的anchor设计来说,对于128x128的region proposal, 228x228是个很不错的选择(包含了上下文信息), 256尺度的跟228差不多, 512x512的只利用了中心的228x228的特征(虽然不是很好,但也凑合), 所以选择3x3的滑窗也算是一个技巧,目的是让这个滑动窗口的感受野跟region proposal的尽可能接近,这样去分类和做窗口回归才会更准.
参考:http://caffecn.cn/?/question/449