PSPNet语义分割网络

最新推荐文章于 2024-01-17 19:52:59 发布

&永恒的星河&

最新推荐文章于 2024-01-17 19:52:59 发布

阅读量1.7k

点赞数 1

分类专栏：语义分割文章标签：深度学习语义分割

本文链接：https://blog.csdn.net/weixin_44402973/article/details/103128941

版权

语义分割专栏收录该内容

3 篇文章 3 订阅

订阅专栏

论文题目：Pyramid Scene Parsing Network

论文链接：https://arxiv.org/pdf/1612.01105.pdf

各位好，今天我给大家带来一篇关于图像语义分割领域文章。这是2017年发表在CVPR上的一篇文章。可以说是经典。为何这么说呢？不用急，我会在后续笔述中详细阐述。由于本人爱好，各位可能在本人博文的看到很多研究方向，有视频行为识别，图像分割，行为检测，图像分类，不过虽然多，但是我感觉都大同小异。好了，多余的话我就不说了，现在开始今天的正题。按照我写博客的习惯，我会先对文章进行整体介绍，然后介绍这个方向研究现状，接着是研究方法（这是论文的核心），最后是实验阶段，来说明所提出模型/架构的优越性。

这篇文章为何叫PSPNet呢？因为作者提出了一个模块，这个模块叫做Pyramid Pooling Module(金字塔池化模块)，那么这个模块是作用是什么呢？可以将局部的上下文进行聚合，形成全局的上下文，更全面地实现定位和像素分类。语义分割要做的其实就是预测所关注对象的label,lacation和shape。该PSPNet是2016年ImageNet场景解析挑战赛的冠军，在PASCAL VOC 2012语义分割基准上排名第一，在Cityscapes数据上排名第一。最后说一下这篇文做的贡献：

提出了一个金字塔场景解析网络，在基于FCN的像素预测框架中嵌入困难的场景上下文特征；
提出了一种基于深度监督损失的深度ResNet的有效优化策略;
构建了一个实用的场景解析和语义分割系统

接着笔述一下语义分割的研究现状吧。目前工作主要是基于卷积+反卷积实现语义分割框架进行改进，当然我今天笔述的这篇文章也是基于此，具体代表网络有UNet,FCN，Unet++等。另外研究工作包含两个主线，一种是多尺度特征嵌入来改善网络表现；一种是使用条件随机场来对分割结果进行后处理，具体网络代表有DeepLab；这两个主线的改善了分割结果的定位。当然，相关方向的文章需要各位读者深入阅读，并进行实验，这样才可以融汇贯通。

下面笔者来介绍这篇文章的方法部分，这是论文的灵魂所在。首先，我来解释一下上面提到的，为何要提出金字塔池化模块。看图1，先看最上面一行，FCN网络预测水里的小船(boat)为汽车(car),这种情形叫做关系不匹配(Mismatched Relationship),

图1 不同网络分割对比图

造成这种错误原因是丢失了全局的上下文信息。在看看中间一行，FCN预测框内building部分为skyscrape，部分为building,这种情形叫做类别混淆，这种错误可以通过类别之间的关系来被修正。最后看第三行，FCN预测中将小的pillow(枕头)进行忽略，这种情形叫做不显眼类别(Inconspicuous Classes),这个情况是由于FCN感受野设置不合理造成的，为了解决这种问题，网络要关注不

图2 金字塔池化层

同子区域的感受野(我们可以使用上下文信息多少)。当然还有其它问题，总之这就是Pyramid Pooling Module提出来的原因。接下来介绍我们的重点对象Pyramid Pooling Module,可以提取全局的上下文信息，具体如图2，该层的输入是由backbone卷积经典网络输出特征图，首先使用不同stride和size的pool作用得出不同尺度的特征图，每层叫做金字塔层，这代表不同子区间的特征和

图3 PSPNet网络结构

不同位置的池化表示，接着，为了保持全局特征的权重，在每个金字塔层次后使用1×1卷积层，当金字塔层次大小为N时，将上下文表示的维数降到原来的1/N。然后直接对低维特征映射进行双线性插值，得到与原来特征映射相同大小的特征，最后对得到不同层次的特征进行concat(通道级别)。具体PSPNet网络结构如图3，首先输入一种要分割图片，之后经过一个预训练的ResNet，之后，当然该ResNet去掉全连接层，输出feature map大小为原始输入图像的1/8，接着将feature map输入到提出的Pyramid Pooling Layer提取全局上下文信息，最后输出最终的分割图。为了更好的优化提出的PSPNet,具体优化包括两部分了，作者基干网络采用ResNet110,优化如图4，分为两部分，主分支采用softmax损失来优化最终分类器，而辅助损失帮助优化学习过程，作者增加权重来平衡辅助损失，具体看代码，测试阶段去掉辅助损失。