Mask R-CNN

最新推荐文章于 2024-04-13 09:38:34 发布

xiaochengJF

最新推荐文章于 2024-04-13 09:38:34 发布

阅读量768

点赞数

分类专栏：目标检测文章标签：深度学习目标检测计算机视觉卷积神经网络

本文链接：https://blog.csdn.net/weixin_43711554/article/details/90300117

版权

目标检测专栏收录该内容

41 篇文章 1 订阅

订阅专栏

论文：Mask R-CNN（CVPR 2017）
代码：MengTianjian/MaskRCNN（pytorch）
$\qquad\;$ facebookresearch/maskrcnn-benchmark

文章目录

语义分割和实例分割

实例分割：每个目标用不同颜色标识
语义分割：每类目标用不同颜色标识

以VOC2007中的数据为例，左边为语义分割，可以看到多张图片中“人”均用粉色标识；右边为实例分割，多个目标就用多种颜色标识。

语义分割

实例分割

Mask R-CNN总体架构

Mask R-CNN是实例分割（Instance segmentation）算法，算法架构基本是在FasterRCNN $^{【1】}$ 的基础上增加了一个mask预测分支，所以附带检测、分类

由mask_rcnn.py也可以看到：FasterRCNN $^{【1】}$ 中只有一个ROIHEAD（对应坐标、分类预测），而MaskRCNN则还有一个MaskHead（mask预测）：

class MaskHead(nn.Module):

    def __init__(self, config):
        super(MaskHead, self).__init__()
        self.config = config
        self.num_classes = config.NUM_CLASSES
        #self.crop_size = config.mask_crop_size

        #self.roi_align = RoIAlign(self.crop_size, self.crop_size)
        self.conv1 = nn.Conv2d(256, 256, kernel_size=3, padding=1, stride=1)
        self.bn1 = nn.BatchNorm2d(256)
        self.conv2 = nn.Conv2d(256, 256, kernel_size=3, padding=1, stride=1)
        self.bn2 = nn.BatchNorm2d(256)
        self.conv3 = nn.Conv2d(256, 256, kernel_size=3, padding=1, stride=1)
        self.bn3 = nn.BatchNorm2d(256)
        self.conv4 = nn.Conv2d(256, 256, kernel_size=3, padding=1, stride=1)
        self.bn4 = nn.BatchNorm2d(256)

        self.deconv = nn.ConvTranspose2d(256, 256, kernel_size=4, padding=1, stride=2, bias=False)
        self.mask = nn.Conv2d(256, self.num_classes, kernel_size=1, padding=0, stride=1)

    def forward(self, x, rpn_rois):
        #x = self.roi_align(x, rpn_rois)
        x = ROIAlign(x, rpn_rois, self.config, self.config.MASK_POOL_SIZE)

        roi_number = x.size()[1]

        # merge batch and roi number together
        x = x.view(self.config.IMAGES_PER_GPU * roi_number,
                   256, self.config.MASK_POOL_SIZE,
                   self.config.MASK_POOL_SIZE)

        x = F.relu(self.bn1(self.conv1(x)), inplace=True)
        x = F.relu(self.bn2(self.conv2(x)), inplace=True)
        x = F.relu(self.bn3(self.conv3(x)), inplace=True)
        x = F.relu(self.bn4(self.conv4(x)), inplace=True)
        x = self.deconv(x)
        rcnn_mask_logits = self.mask(x)

        rcnn_mask_logits = rcnn_mask_logits.view(self.config.IMAGES_PER_GPU,
                                                 roi_number,
                                                 self.config.NUM_CLASSES,
                                                 self.config.MASK_POOL_SIZE * 2,
                                                 self.config.MASK_POOL_SIZE * 2)

        return rcnn_mask_logits