1、mask_rcnn在faster_rcnn的基础上加了mask预测分支,其中准确率提升很大的一点改进是roipool改为roi-align,为什么这样改?
2、首先看下roipool的原理:https://blog.csdn.net/weixin_42310154/article/details/119889682 的1.4.2
3、然后这样的缺点:在Faster RCNN中,有两次整数化的过程:
第一、region proposal的xywh通常是小数,但是为了方便操作会把它整数化。第二、将整数化后的边界区域平均分割成 k * k 个单元,对每一个单元的边界进行整数化。前面提到roi是基于原图的,这样对应到featmap上由于第一点量化会出现误差,再将每个proposal对应的feature map区域分为pooled_w x pooled_h的网格,由于各种尺寸不会完美区分,eg:RoI Pooling的输出大小是22上,如果ROI网络输出的RoI大小是75的,roipool会如下图所示划分网格,然后maxpool,这样就出现了和原始信息不对应的误差,影响到检测准确率。
4.为了修正以上缺点提出的roi-align,原理为:不选择量化取整,保留小数位,那么如何池化呢?采用的是双线性插值的原理,具体可看https://blog.csdn.net/qq_37392244/article/details/88844681或者https://zhuanlan.zhihu.com/p/37998710