1:anchors不同的大小但是采用了ROI pooling一样的策略,都映射到3*3的卷积核上,最后通过1*1的卷积核,相当与全连接分成了18类,9个anchors的话;
2:分类的时候,reshape,两次,第一次为了softmax分类,因为一开始【1,2*9,W,H】,要变成【1,2,9*W,H】,主要是为了分类;
3:最后的特征map上一个像素点代表3*3的窗口,在原图代码48*48的窗口;
4:faster RCNN是两阶段的,第一节阶段主要是为了调节基础网络,得到一个提取特征较好的网络,两个fc层主要是为了人脸的分类;第二阶段,通过基础网络,把RPN层的推荐窗口的特征送到fc层中,进行分类;其中第一阶段中得分高的窗口,送入到第二阶段中继续的训练fast RCNN层,这样得到更好的网络;