论文传送门:Fast R-CNN(ICCV 2015)
关键点理解:
1、直接对整张图像进行卷积,而不是单独每个region proposal,减少大量重复计算(仍然是由selective search方法得到region proposal,下图可以看到region proposal在feature map上的映射关系)
2、ROI pooling
ROI:Region of Interest,将候选框在特征图的映射区域划分划分为相同大小的块(实际会有向下取整的操作,因此不一定完全一样大),然后对各个块进行max pooling操作,这样下一层就可以得到相同大小的特征图作为输入,相当于spp的简化版
3、Smooth L1 Loss
smooth L1 loss是L1和L2的结合,L2 Loss收敛更快(更平滑,震荡小),在0点有导数,利于收敛;L1 Loss对异常值更加robust(plus:Smooth L1 Loss主流实现方式,loss函数涉及的softmax 、cross encropy和softmaxwithloss)
4、将分类和回归放在一个网络中训练,用softmax代替svm,并整合分类和回归 Loss
5、fc6和fc7两层占据45%的计算时间,采用SVD分解改进全连接层
参考文献
【1】【论文翻译】Fast R-CNN
【2】Fast R-CNN论文详解
【3】Fast RCNN算法详解
【4】ROI Pooling原理及实现
【5】Fast R-CNN文章详细解读