Cross-MPI以底层场景结构为线索的端到端网络，在大分辨率（x8）差距下也可完成高保真的超分辨率_cross-mpi: cross-scale stereo for image super-reso-CSDN博客

本文链接：https://blog.csdn.net/weixin_47119529/article/details/124531630

Cross-MPI: Cross-scale Stereo for Image Super-Resolution using Multiplane Images

作者个人主页：Cross-MPI's Project Page (liuyebin.com)

代码开源地址：Mayzazhou/Cross-MPI: Project for CVPR 21 paper: "Cross-MPI: Cross-scale Stereo for Image Super-Resolution using Multiplane Images" (github.com)

1、研究动机

由于对底层场景结构的考虑较少，现有的RefSR方法无法在较大的分辨率差（例如8×放大）下实现高保真超分辨率，MPI预估要求图像对具有相同的分辨率，在实际的多尺度相机系统中，尤其是当输入对的分辨率差距达到8×时，效果并不好。本文目标是解决实际多尺度相机系统中受多平面图像（MPI）表示启发的RefSR问题。

多尺度：不同的图片大小。

2、The Cross-MPI pipeline

具体方法：Cross-MPI，是一个端到端的 RefSR 网络，由一个新的基于平面感知注意力的 MPI 机制、一个多尺度引导上采样模块以及一个超分辨率（SR）合成和融合模块组成。所提出的平面感知注意力机制没有采用跨尺度立体之间的直接详尽匹配，而是充分利用隐藏的场景结构进行高效的基于注意力的对应搜索。进一步结合温和的由粗到细的引导上采样策略，提出的 Cross-MPI 能够实现稳健而准确的细节传输.

Iref 参考图像和Ilr图像，比如说，我们的左眼看的并不是很清晰，那么如果我们的右眼看的清晰，那么这个时候，我们右眼看到的图像就会被我们的大脑作为左眼信息的补充。

PSVref 我们可以理解为把参考图像进行多次下采样，然后组合成一个图片集。

那么下采样呢?

目的：1、使得图像符合显示区域的大小；2、生成对应图像的缩略图；3、降低特征的维度并保留有效信息，一定程度上避免过拟合，保持旋转、平移、伸缩不变形。

原理：把M*N的原始图像的s*s（M N的公约数）窗口内的图像编程一个像素，这个像素点的值就是窗口内所有图像的均值。

实现：pooling

放大图像称为上采样或图像插值

目的：放大原图像，从而可以显示在更高分辨率的显示设备上。

方法：1、内插值。插值方法有很多，比如均值，中值，最近邻。通过这种方法，在周围像素色彩的基础上用数学公式计算丢失像素的色彩。2、反卷积。即通过转置卷积核的方法来实现卷积的逆过程。3、反池化。在池化过程，比如max-pooling时，要记录下每个元素对应kernel中的坐标。反池化时即将每一个元素根据坐标填写，其余位置补0.

上采样。

简单的理解就是把图片进行放大了。在算法中，在我们做图像识别过程中，需要对图像进行像素级别的分类，因此在卷积提取特征后需要通过上采样将feature map 还原到原图中。

在算法中常见的上采样方法有双线性插值以及转置卷积、上采样(unsampling)和上池化(unpooling).

常用的就是双线性插值以及转置卷积。

上采样可以恢复图片的很多细节，这在我们的语义指导模块将有所体现。

3、平面感知注意力

Shared feature extractor (SFE) 是一个剩余的萎缩空间金字塔池（ResASPP）模块

上面是输入的低分辨率图像

下面是输入的参考图像

两者经过特征提取器，把特征分开，再利用reshape降低维度，便于计算，批量矩阵乘法，对于不同的维度，批量矩阵乘法可以更好的结合特征。最后我们经过一个Softmax函数，把特征映射到0-1之间，这样就得到了图片的初始α特征图。

4、Multiscale Guided Upsampling Module

输入一个Ainit，和G ，G是特征指导图，G经过四次反卷积，即下采样，与对应尺寸的A的图片进行一个结合，所提出的平面感知注意力机制没有采用跨尺度立体之间的直接详尽匹配，而是充分利用隐藏的场景结构进行高效的基于注意力的对应搜索。进一步结合温和的由粗到细的引导上采样策略。

Gl是空间层l的制导图。

在多尺度引导上采样模块的输出层，应用1×1卷积来恢复最终alpha贴图的通道大小，如下所示

softmax操作确保每个像素单元的发射光的深度概率总和为1。

得到了一个 SR alpha maps 即充分得到的 alpha 概率分布图

我们还可以获得场景深度DSR∈ Rβh×βw×1，通过简单地应用argmax函数从alpha映射得到

5、 SR MPI

RGBA是代表Red（红色）Green（绿色）Blue（蓝色）和Alpha的色彩空间。虽然它有的时候被描述为一个颜色空间，但是它其实仅仅是RGB模型的附加了额外的信息。采用的颜色是RGB，可以属于任何一种RGB颜色空间，但是Catmull和Smith在1971至1972年间提出了这个不可或缺的alpha数值，使得alpha渲染和alpha合成变得可能。提出者以alpha来命名是源于经典的线性插值方程αA + (1-α)B所用的就是这个希腊字母。
alpha通道一般用作不透明度参数。如果一个像素的alpha通道数值为0%，那它就是完全透明的（也就是看不见的），而数值为100%则意味着一个完全不透明的像素（传统的数字图像）。在0%和100%之间的值则使得像素可以透过背景显示出来，就像透过玻璃（半透明性），这种效果是简单的二元透明性（透明或不透明）做不到的。它使数码合成变得容易。alpha通道值可以用百分比、整数或者像RGB参数那样用0到1的实数表示。

MPI表示是RGBA层{（C1，α1），…，（Cd，αd）}的集合，其中C表示RGB颜色，α表示每个平面的占用率，d表示深度平面的数量。

6 、SR Synthesis and Fusion

在获得具有相同SR空间大小的alpha贴图A后，我们可以生成LR视图的SR MPI。SR MPI仅包含HR参考视图中的HR颜色，即HR平面扫描图像按元素乘以每个深度平面上的alpha贴图。

◦ 表示阿达玛积即矩阵的点乘。

为了根据LR输入进一步融合合成的细节并产生最终的SR结果，我们设计了SR融合子网络。SR合成和融合过程可以表示为：

ILR↑由β×双三次上采样计算，FuseNet（·）表示SR融合子网络，它是一个包含多个级联子剩余块的剩余网络。最重要的是，SR合成和融合模块旨在充分传输HR纹理，以与LR输入对齐。

7、损失函数

整体损失的设计考虑保持SR图像的空间特征，获得更好的视觉质量，并在多尺度结构内进行监督，以获得精确的alpha地图。具体而言，损失由以下三部分组成：重建损失、感知损失和内部监督损失：

重建损失。我们首先定义一个重建损失，以鼓励输出ISR与地面真相相匹配，并选择每像素L1损失：

（βh，βw，c）是SR的图片空间大小，我们利用恢复的图片与真实的图片做差。得到差距，约束损失。

感知丧失。感知损失已被证明可以提高视觉质量，并已成功应用于图像超分辨率和生成任务。具体而言，我们采用规范化VGG-19参考中的层匹配

{φl}是VGG-19的一组指定神经层，权重{λl}设置为每层神经元数量的倒数

内部监督缺失。由于精确的对应估计在我们的RefSR任务中至关重要，并且我们建议在LR空间中估计初始alpha映射，然后逐步引导上采样，因此考虑内部估计质量非常重要。因此，我们提出了一个内部监督（IS）损失，以监控阿尔法地图Ainit初始估计的准确性。

⊗ 表示批量矩阵乘法。这种内部监督损失鼓励初始alpha贴图在开始时生成准确的内容扭曲，这有助于我们的整个管道生成更精确的SR alpha贴图，用于HR细节传输。

8、实验细节

在训练过程中，我们设置空间大小h=384，w=768，c=3，d=32，β=8，并使用RealEstate10K[38]数据集的训练集。

学习率为0.0002、β1=0.9、β2=0.999和批量大小=1

9、实验结果

10、消融实验

在本节中，我们将验证跨MPI网络中不同模块的有效性，包括平面感知注意、多尺度引导上采样模块和内部监督损失。我们用这些模块的不同组合来训练模型。随机采样帧差为3到10的立体对作为测试集，我们计算量化指标，

平面感知力。为了验证新的平面感知注意改善了整个管道中的对应匹配，我们将平面感知注意替换为“串联+卷积”，而网络的其余部分以及训练过程与我们的完整模型保持相同。正如我们在表3和图8中所看到的，数值结果略有下降，并且在没有提出的平面感知注意的情况下出现了一些错误的估计。

多尺度引导上采样模块。多尺度引导上采样的设计有效地帮助超分辨初始alpha贴图。为了验证引导式上采样的有效性，我们移除了外部引导路径（图5中较低的分支），上采样过程变成了纯粹的卷积上采样。在图中，我们可以看到，如果没有精确设计的制导，深度会变得模糊。

内部监督缺失。内部监督损失有助于网络更好地了解alpha映射的初始估计，这对于后面的SR合成和融合过程至关重要。如表3和图8所示，数值和视觉结果在没有IS损失的情况下减少。

11、总结

1、通过MPI表示的镜头仔细研究了RefSR问题，在真正的混合成像系统上实现了高达8倍的超分辨率

2、提出了一种新的平面感知注意机制，用于MPI预估，与原始的直接级联和卷积操作相比，该机制可以实现更明确、更高效的对应估计

3、提出了一种新的用于跨尺度多平面图像合成的多尺度引导上采样模块，可以解决在大分辨率差异下的匹配问题。还可以推断出对场景结构进行编码的精细细节深度图。

本文提出的是Cross-MPI，使是一个端到端的 RefSR 网络，由一个新的基于平面感知注意力的 MPI 机制、一个多尺度引导上采样模块以及一个超分辨率（SR）合成和融合模块组成。所提出的平面感知注意力机制没有采用跨尺度立体之间的直接详尽匹配，而是充分利用隐藏的场景结构进行高效的基于注意力的对应搜索。进一步结合温和的由粗到细的引导上采样策略，提出的 Cross-MPI 能够实现稳健而准确的细节传输。

作者 | Yuemei Zhou, Gaochang Wu, Ying Fu, Kun Li, Yebin Liu

单位 | 清华；东北大学；北京理工大学；天津大学

论文 | Cross-MPI: Cross-scale Stereo for Image Super-Resolution using Multiplane Images

主页 | Cross-MPI's Project Page