＜论文阅读＞CascadePSP: Toward Class-Agnostic and Very High-Resolution Segmentation via Global and...-CSDN博客

本文链接：https://blog.csdn.net/weixin_44997802/article/details/115186973

名词解释：
双三次插值：双三次插值是一种更加复杂的插值方式，它能创造出比双线性插值更平滑的图像边缘。

**标题翻译：**通过全局和局部优化进行面向不可知类和超高像素图像的分割
CascadePSP: Toward Class-Agnostic and Very High-Resolution Segmentation via Global and Local Refinement

改论文提出的高像素图片解决方法能够不使用任何高像素训练数据。

使用我们的模型可以揭示像素精准的分割界限而不用任何微调->不可知类

**引言：**许多计算机视觉SOTA算法面临高像素挑战

对于高像素的图片需要特别大的接收域来捕获充分的语义信息
合理的解决方法有降采样和修剪，但前者移掉了细节，后者毁掉了图像内容

CascadePSP是一个通用的分割提取模型，能够提取任何给定的分割，从超低到超高像素。这个模型能加到任何已经存在的模型来提升其分割，一个更好、更精确的分割掩码将被提供。我们的模型将初始掩码作为输入，该掩码可以是提供粗略对象位置的任何算法的输出。然后我们的模型会输出一张改进的掩码。
CascadePSP是一种级联风格的模型，以一种由粗到细的方式生成改进的分割。

从这幅图可以看出，CascadePSP不仅高像素的输出分割，而且提升和纠正了原先错误的边缘，产生了更准确的结果。

在这里插入图片描述

**模型介绍部分：**细化模型and级联方法
1.细化模型
在这里插入图片描述
如图所示，CascadePSP将一张图像和多个不完美的分割mask作为输入，输出一个改进的分割结果。多规模的输入允许模型得到不同级别的结构和边缘信息，这为网络学习自动地融合掩码特征来最好地改进分割结果提供基础。

所有低像素的输入分割都被双线性地升采样到相同的规模，并于RGB图像相连。我们使用PSPNet与ResNet-50作为骨干网，获取步长为8的特征图谱作为输入。我们采用[1,2,3,6]的金字塔池化大小来获得全局的内容。除了最后一张步长为1的输出，CascadePSP还会输出中间的步长为8和4的分割结果，聚焦于修复输入模型的全局结构。我们跳过步长2来为纠正局部的错误边界提供灵活性。

为了重建提取过程中丢失的像素级图片细节，我们采取了从主干网跳过连接以及使用一个上采样块融合特征的方式。我们连接来自主干网的跳过联络的特征与双线性上采样特征，用两个ResNet块处理它们。一个分割结果的输出是用了一个2层的1x1卷积加一个sigmoid激活。

2.全局的和局部的CascadePSP改进
在测试中，我们分别采用全局和局部的步长，用相同的训练过的优化模型来执行高像素分割。
具体来说，全局的步长考虑到了完整的调整过大小后的图像来修复结构，而局部的步长使用图像修建来提升全部像素的细节。
相同的图像模型能够被递归地用于高像素优化。
2.1全局步长
在这里插入图片描述
上图表示的是全局步长的细节，用一个3级cascade来改善整个图像。全像素图片在测试过程中往往不能被GPU处理，我们对输入进行降采样以便于长轴位有着长度L的同时保持相同的长宽比。

我们将cascade的输入初始化为输入分割，这个过程直接复制来保证输入输入通道维度保持不变。经过第一级的cascade之后，输入通道之一会被双线性上采样的输出取代。这个过程将一直重复到最后一级，最后一级的输入由初始分割和之前所有层级的输出构成。

这种设计使得我们的网络能够逐步修复分割错误，在保持细节的前提之下呈现出原始的分割。有了多层级，我们能够粗糙地描绘物体的轮廓、修正大的错误，并利用粗糙层级提供的更具健壮性的特征聚焦精细层级的边界精确度。

2.2局部步长
在这里插入图片描述
上图描绘了局部步长的细节。超高像素的图片即使在现代的GPU上也由于内存的限制不能够被一次性处理。此外，训练和测试数据规模的剧烈改变也会造成不好的分割质量。我们用我们的cascade模型首先用一个降采样的图片执行了全局的优化，然后使用一个从更高像素的图片上修建下的图片来执行局部的优化。这些修剪使得本地步长在没有高像素训练数据的情况下处理高像素的图片，与此同时吸收进全局步长得到的图像内容。

在局部步长中，模型将全局步长的最后一级的两个输出表示为S_1^1和S_41。两张输出都被双线性地调整为原始图像的大小。该模型采用尺寸为L×L的图像裁切，并且从裁切输出的每一侧切开16个像素，以避免出现边界伪像（图像边界处除外）。均匀地以L / 2-32的步幅拍摄作物，以使大多数像素被四个作物覆盖，并且超出图像边界的无效作物将移动以与图像的最后一行/列对齐。然后将图像作物送入2级的级联中，输出步幅分别为4和1。融合时，由于图像上下文不同，不同补丁的输出可能会彼此不一致，我们通过对所有输出值求平均值来解决此问题。对于分辨率更高的图像，我们以从粗到精的方式递归地应用局部步长。