CVPR21RefineMask: Towards High-Quality Instance Segmentation with Fine-Grained Features

菜鸟中的菜中菜

已于 2022-05-28 19:20:47 修改

阅读量970

点赞数

分类专栏：实例分割文章标签：深度学习计算机视觉人工智能

于 2022-05-27 19:03:54 首次发布

本文链接：https://blog.csdn.net/weixin_44176643/article/details/124987511

版权

RefineMask是一种针对实例分割的方法，旨在解决因特征金字塔和池化操作导致的掩模粗糙问题。通过多阶段细化过程和边界感知模块，结合语义特征，RefineMask能产生高质量的112×112实例掩码。实验表明，语义头的引入和细化过程显著提升了分割质量。

摘要由CSDN通过智能技术生成

Introduction

由于特征金字塔和池化过程中的降采样操作，分割后的掩模仍然非常粗糙，特别是对于大型对象。提出了一种新的方法，用于高质量的对象和场景的实例分割，该方法在多阶段的实例分割过程中包含了细粒度的特征。通过逐步融合更详细的信息，精炼面具能够持续地细化高质量的面具。

问题：MaskR-CNN丢失了高质量实例分割任务中不可或缺的图像细节，原因1，FPN中较高级别的特征通常会导致较粗的空间分辨率。原因2，roi池化进一步把特征缩小到77或者1414。
而传统语义分割可以充分利用高分辨率的特征，如deeplab，效果图如下所示，很明显，没有必要利用任何实例级池化操作，减轻了细节丢失
在这里插入图片描述
本工作的主要思想是通过在实例分割过程中保持当前两阶段方法的强大能力来区分实例，并在实例分割过程中用细粒度的特征补充丢失的细节来执行实例分割，通过迭代地融合更细粒度的特征并明确地关注边界区域，能够一致地细化更高质量的掩模

Method

在这里插入图片描述
整体前面和maskrcnn一样，后面有两个分支，semantic head和mask head。

Semantic Head

使用FPN 中分辨率最高的特征P2，输出保持与输入相同的分辨率，而不使用下采样。
由semantic head生成的细粒度特征被用于促进mask head中的实例分割。

组成：四个卷积层组成来提取整个图像的语义特征，以及一个二进制分类器来预测每个像素属于前景的概率。损失为binary cross-entropy

Mask Head

首先将由14×14RoIAlign操作提取的特征输入到两个3×3的卷积层中，生成实例特征。然后采用1×1卷积层预测实例mask，像maskrcnn一样，但mask的大小仅为14×14。这个coarse mask粗掩码被用作后期细化阶段的初始掩码。

多阶段的细化过程

每个阶段的输入由四个部分组成，即实例特征和从其前一阶段获得的实例掩码、从semantic head的输出中汇集的语义特征和语义掩码。

在这里插入图片描述

使用Semantic Fusion Module（SFM）来融合这些输入，然后将融合后的特征扩展到更高的空间尺寸，mask head迭代地运行这个重新细化过程，并输出一个分辨率高达112×112的高质量实例掩码。

SFM中的融合特征被一个1×1的卷积层压缩，使其通道减半，减少计算成本。

SFM语义融合模块

在这里插入图片描述
为了更好地集成细粒度的特性，设计该模块。首先将四个输入拼接然后1x1卷积进行降维，然后3个不同dilation的平行的3x3卷积来融合单个神经元周围的信息。最后，将实例掩码和语义掩码再次与融合的特征连接起来，作为后续预测的指导。
问题：33卷积之后，融合的时候就没有语义特征了吗

dilation为卷积核点直接的距离，0就是正常卷积核，1就是增加一个间隔，相当于增加了感受野。由dilation=0时的3*3=9变为了dilation=1时的5*5=25，在增加了感受域的同时却没有增加计算量，保留了更多的细节信息，对图像还原的精度有明显的提升。
代码在mmdet/models/roi_heads/mask_heads/refine_mask_head.py