论文地址:Mask R-CNN
用于目标实例分割的框架,能够有效地检测图像中的目标,同时还能为每个实例生成一个高质量的分割掩码。
主要特点:
-
Mask R-CNN 是 Faster R-CNN的扩展;
-
训练简单。
-
易于泛化到其他任务。
-
没使用fine-tuning的情况下,Mask R-CNN的表现超越了在每个任务上已有的所有single-modle entries。
网络结构:
其中:第一个分支是Faster R-CNN结构,用于分类和坐标回归;第二个分支对每个ROI区域预测分割mask。
Mask R-CNN
Faster R-CNN:
1)、通过RPN网络给出候选区域的bbox;
2)、通过RoIPooling, 在各个候选框中进行分类和bbox的回归。
Mask R-CNN:
1)、通过RPN网络 给出候选区域的bbox;
2)、各个候选框的分类和bbox的回归;
3)、对每个RoI输出binary mask(与步骤2)并行)。
-
损失函数:, mask分支对于每个RoI有Km2 维度的输出。K个(类别数)分辨率为m*m的二值mask。因此作者利用了a per-pixel sigmoid,并且定义 Lmask 为平均二值交叉熵损失,对于一个属于第k个类别的RoI, Lmask 仅仅考虑第k个mask。这样的定义会允许对每个类别都会生成掩模,并且不会存在类间竞争。
RoIAlign: 对RoI Pooling的改进。RoI Pooling可能会有misalignment。解决方法: 使用双线性插值,再做聚合。