整体思路:
1.Mask R-CNN是在Faster R-CNN基础上做出的改进。
2.改进的措施有两个:(1)加入掩码头(2)RoI Align替换为RoI Pooling
具体介绍:
(1)掩码头结构简单,由全卷积构成,一共有5个卷积和一个上采样:4个3x3卷积,1个 类别数x256x3x3 大小的逻辑卷积,和一个将14x14扩大到28x28的上采样。逻辑卷积作用是将 Nx256x14x14 掩码RoI特征的256维度更换为类别数维度。方便后续进行loss计算。
(2)RoI Align可以理解为大型池化操作,因为普通的池化操作会将特征图大小缩小为原来的1/2.但是RoI Align则是将FPN特征层中的RoI区域缩小为固定大小14x14。RoI Pooling也可以实现同样的效果,但是RoI Align比RoI Pooling更准确一些,因为在对齐时候,RoI边缘区域处理不同,RoI Pooling是对边缘四舍五入,而RoI Align是线性插值处理,更科学一些。RoI Align比RoI Pooling更好的进行空间定位。得到的掩码RoI特征位置与原图对应的感兴趣实例位置更贴合。
以下是我用Mask R-CNN在BDD100K上跑出的效果图,看着还行哈。
原图:
label:
效果图: