论文《PMSC: PatchMatch-Based Superpixel Cut for Accurate Stereo Matching》学习

最新推荐文章于 2024-06-07 09:48:47 发布

Orange Wu

最新推荐文章于 2024-06-07 09:48:47 发布

阅读量940

点赞数

分类专栏：论文学习

本文链接：https://blog.csdn.net/weixin_44470443/article/details/105624682

版权

论文学习专栏收录该内容

56 篇文章

订阅专栏

提出了一种基于PatchMatch的超像素切割(PMSC)算法，用于实现精确的立体声匹配，通过双层匹配成本和多层超像素结构，显著提高了亚像素精度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

《PMSC：基于PatchMatch的超像素切割，可实现精确的立体声匹配》
2018

Abstract

同时估计一个像素的视差和法线方向，而不是仅视差（也称为3D标签方法），可以在立体匹配问题中实现更高的子像素精度。但是，由于无限的参数空间，在维持全局一致性的同时，很难从连续标签空间R3向每个像素分配适当的3D标签。在本文中，我们提出了一种新的算法，称为基于PatchMatch的超像素切割，可以更精确地分配图像的3D标签。为了实现本地窗口之间的鲁棒和精确的立体声匹配，我们开发了双层匹配成本，其中采用了自下而上的方案来设计两层。底层用于通过利用预训练的卷积神经网络来局部测量小正方形补丁之间的相似性，然后，顶层被开发为在由对象表面的切平面引起的大的不规则窗口中组装局部匹配成本。为了优化局部分配的空间平滑度，我们提出了一种更新3D标签的新颖策略。在优化过程中，利用分割信息和PatchMatch的随机优化来更新每个像素的候选3D标签集，从而获得较低损失的可能性很高。由于一般候选标签集的成对能量违反了图切割的子模属性，因此我们提出了一种新颖的多层超像素结构，将候选标签集分组为候选分配，从而可以通过α展开图切割有效地融合。大量实验表明，我们的方法可以在不同的数据集中实现更高的亚像素精度，并且在所有现有方法中，目前在新的具有挑战性的Middlebury 3.0基准测试中排名第一。
索引词-3D标签，PatchMatch，立体匹配，超像素切割（SC）。

一，引言

长期以来，立体匹配一直是计算机视觉中最核心的问题之一。最近，3D标签的广泛使用在很大程度上提高了立体声匹配算法的准确性。 3D标签方法不是分配一个离散的视差值，而是为每个像素分配三个连续的值，同时代表视差和表面法线方向[1]，具有以下优点。首先，它们避免了在1D标签立体方法中通常被视为“楼梯伪像”的额平行偏差。其次，倾斜表面的相应区域应合理地由表面法线确定。第三，视差的二阶平滑度只能通过成对约束来实现[2]。

但是，由于3D标签具有巨大的连续标签空间R3和非凸能量函数，因此成本汇总和全局优化都不像标量差异情况那样简单。为了更好地克服使用3D标签的上述困难，我们提出了一种基于PatchMatch的超像素分割（PMSC）算法，用于精确的立体声匹配。

第一个挑战在于补丁匹配成本的选择。对于一维标签引起的正方形补丁，已经精心设计了大量的匹配成本[3] – [7]，但是在每个匹配窗口中恒定视差值的假设限制了窗口很小，且唯一性很弱。使用3D标签引起的倾斜面片可以克服额线平行假设的缺点，因此窗口大小通常要大得多。但是，由于匹配窗口的形状随不同的3D标签而变化，因此将前沿并行补丁的最新匹配成本扩展到倾斜补丁通常是无效的。结果，通常通过像素强度和梯度差的直接聚集来计算现有的倾斜补丁匹配成本，这不适用于许多挑战性的情况，例如左右图像之间的曝光或照度变化。

为了解决该问题，我们提出了一种双层策略来构造新颖的匹配成本。首先使用预训练卷积神经网络（CNN）[5]来预测小额平行窗口的相似性，然后在3D标签诱导的大倾斜窗口上使用自适应权重来聚合像素相似性[8]。第一层提高了局部匹配的鲁棒性，在小方窗上的正平行假设误差可忽略不计，而第二层则保证了与大斜窗上的倾斜物体表面的一致性。

第二个挑战是如何对每个像素的无限3D标签空间执行全局优化。一种有效的解决方案是使用分段作为硬约束或软约束[9] – [13]。在强度图像上执行过分割后，基于段的方法会在超像素级别上计算候选3D标签，假设同一段内的像素属于同一3D表面。然后从有限的标签集中而不是整个标签空间R3中找到最佳分配。尽管在超像素级别上进行处理的复杂性较低，但精度受到候选3D标签集不足的限制，并且优化可能会遇到分割错误。另一组方法借用了PatchMatch [14]的想法，用于近似最近邻字段。PatchMatch立体声[1]通过随机采样和邻居传播减少了巨大的搜索空间，并直接从R3向每个像素分配了近似最佳的3D标签。后来添加了不同的正则化项[15] – [19]以构造全局方法。尽管达到了较高的精度，但全局PatchMatch方法的优化过程很容易陷入错误的局部最小值。此外，每个像素的极其冗余的采样和传播使得高分辨率图像的运行时间很快变得无法接受。

为了利用基于段的方法的效率和基于PatchMatch的方法的准确性，我们提出了一种新颖的全局优化策略。基于观察到的事实，即地面标签在空间上通常在对象边缘处具有不连续性，因此我们进行了多层超像素分割，并沿超像素迭代传播了候选标签。 PatchMatch的随机优化还用于更新每个像素的候选标签集，我们希望在其中找到整个图像的更好分配。由于常见的优化求解器（例如原始候选标签集上的融合移动[20]或置信传播[21]）不够准确和有效，因此我们将候选标签集重新组合为候选全局分配，称为提案，以采用α展开图割[ 22]进行优化。我们提出了一种在超像素图像上进行区域侵蚀的方法，以构建满足图切割子模块要求的超像素建议。

总体而言，我们的贡献主要是四个： 1）我们通过迭代生成和融合超像素建议，为像素3D标签优化提出了一种有效的新颖框架。 2）通过结合基于CNN和基于PatchMatch的相似性度量，我们提出了3D标签的双层匹配成本。 3）我们设计了一种新颖的超像素建议结构，从而满足α展开图切割的亚模要求。 4）就视差图准确性而言，该方法在新的Middlebury 3.0基准测试中排名第一，并且优于其他全局PatchMatch方法。

二、相关工作

3D标签的匹配成本计算与离散差异的计算成本不同。每个像素的不规则对应区域是由对象表面的切平面引起的，该切平面随不同的3D标签而变化。在这种情况下，基于片段的方法总结了超像素内部的强度和梯度差异[9]，而基于PatchMatch的方法则将它们与具有自适应权重的像素聚集在倾斜的像素内部[1]。为了更好地处理曝光和照明变化，Zhang等人。 [11]和Y amaguchi等。 [23]用小方块补丁之间的梯度和普查变换差异代替像素之间的强度和梯度差异，但匹配成本仅针对超像素计算。 Zbontar和LeCun [5]使用CNN来提高正方形补丁匹配的准确性，仅在离散差异上进行额平行成本汇总。与上述方法不同，我们的双层匹配成本同时利用了3D标签诱导的大倾斜窗口匹配和神经网络预测的小正方形补丁匹配，以同时获得与倾斜物体表面的一致性和像素相似性的鲁棒性。此外，我们的匹配成本是在每个像素处分别计算的。

基于分段的方法自然会减少3D标签的标签空间。一些工作通过假设分段平面场景并鼓励相邻线段对之间的平滑性，将过度分割作为硬约束[24]，[25]。但是，它们遭受不正确的分割和非平面表面的问题。使用分段作为软约束的方法可以更好地解决这些问题。 Bleyer等。 [13]仅使用分割来生成候选3D标签集并优化有限集的最佳分配。奥尔森等。 [2]直接使用3D标签距离作为二阶平滑度的正则化项，并将分段平面方案与融合移动求解器融合。上述方法的缺点是，除非包含在像素的有限候选标签集中，否则无法获得正确的3D标签。相比之下，我们仅采用分段来在像素之间传播候选标签，而PatchMatch随机采样策略保证了候选标签集的充分性。尽管我们还在像素级融合建议书以进行更好的分配，但是我们的建议书经过了精心设计，因此可以通过α展开图切割将其融合，这比融合移动[20]更为有效和准确，特别是对于高分辨率图片。

基于补丁匹配的方法还可以高效地生成候选3D标签。作为一种局部方法[27]，原始的PatchMatch立体声无法很好地处理图像噪声和低纹理区域。应用了不同的全局信息来解决该问题。 Heise等 [16]使用松弛变量来迭代地更新一元数据成本和全局变分平滑成本，但是基于松弛变量的方法在极端非凸的情况下无法正常工作。贝斯等 [15]用邻居传播和随机抽样代替了粒子置信传播的抽样，但是每个像素的3D标签的序列更新很容易陷入不必要的局部最小值。 Taniai等 [17]从本地共享标签（LSL）提出的设计建议可以通过标准图形切割来解决，这是与我们最相关的工作。缺点是使用相同大小的正方形共享区域会导致大量的冗余计算，并且大于该共享区域的错误区域无法纠正。相反，我们引入了细分结果以生成提案。在强度图像的指导下，我们建议的分段平面区域更可能与可能具有挑战性的像素区域对齐。此外，我们的多层结构能够同时处理复杂的表面和较大的模糊区域。因此，采用我们的多层超像素提案带来了更好的准确性和效率。
在这里插入图片描述

三，提出的方法

A.概述

所提出的方法迭代地更新每个像素的候选标签集并针对候选集中的最佳分配进行优化。候选标签集由提案 ${P^i | i = 1,2，...，N\}$ 表示，并且通过融合提案来实现优化。每个建议是一个三通道图像，具有与输入图像相同的大小。每个像素的三个值代表一个3D标签。对于像素p，则对应的候选3D标签集Lp由
在这里插入图片描述
我们设计了一种新颖的超像素结构来有效地更新提案，以便可以通过α展开图切割来进行融合。最终的3D标记可提供具有深度和表面法线的准确3D场景结构。图1显示了整个提议框架的工作流程。第III-B节至第III-E节将详细描述每个步骤。

B. 公式

我们的目标是为每个像素 $p∈P(⊂Z^2)$ 分配3D标签 $l_p =(ap，bp，cp)^T∈R^3$ 。然后通过 $d p = a p \cdot p x + b p + b p \cdot p y + c p$ 来计算像素p的视差，其中px和py是像素p的坐标。引入像素网格马尔可夫随机场（MRF）来展示我们的能量函数。我们的算法尝试为每个像素找到一个映射l，该映射使形式的相应能量最小化
在这里插入图片描述
它由一个测量匹配像素之间切线面补丁一致性的数据项和一个在相邻像素之间具有平滑度的成对正则化项组成。 Np包含像素p的四个相邻像素。

1）一元数据Term：为了提高子像素的准确性，我们通过将3D平面诱导的斑块结构与CNN预测的像素相似性相结合，提出了Ep（lp）的新型双层数据成本。

如图2所示，为了缓解大块内的深度变化所引起的投影变形问题，对于参考图像中的正方形块，通过切线平面来诱导来自另一图像的相应块的形状。对象点的位置，由3D标签显示。由于相应补丁的形状随不同的3D标签而变化，因此与使用正方形补丁相比，补丁相似性测量更加难以加速。出于效率方面的考虑，现有的基于PatchMatch的方法通过像素强度和两个贴片之间的梯度差的加权总和来建立数据成本，如果左右图像之间的曝光或照明发生变化，则处理效果很差。
在这里插入图片描述
为了在挑战性情况下具有更高的鲁棒性和更好的准确性，最近的工作[5]，[28]使用CNN来预测两个小图像块的相似性。可能的误差源，包括图像噪声，照度变化，倾斜和其他几何变形，可以由经过训练的神经网络识别。但是，尽管增加补丁的大小可以减少匹配的歧义，但是神经网络不适用于大补丁。原因之一是，当补丁大小变大时，神经网络的倾斜处理能力仍然比使用带有3D标签的倾斜补丁的能力差。

我们提出的双层数据成本同时利用了上述两种补丁成本，
在这里插入图片描述
其中Wp是一个以像素p为中心的正方形窗口，通过假定Wp内的像素共享相同的切平面参数来定位其他视图的匹配像素。从像素q的右视图来看，q’是对应的像素。鉴于3D标签 $lp = p的（ap，bp，cp）^T$ ，q′的坐标由 $q' x = q x - （ a p \cdot q x + b p \cdot q y + c p ）$ 和 $q' y = q y$ 计算。 CCNN是以像素q为中心的左图像块 $R^L（q）$ 和以像素q’为中心的右图像块 $R^R（q'）$ 之间的相似度成本。可以通过参数τsim截断成本，以更好地容忍单个3D标签无法很好地建模的不规则表面。成本汇总权重 $w_{pq}$ 定义为
在这里插入图片描述
对于原始的PatchMatch立体声，不需要Zpis进行归一化，因为它的值对于所有切线平面保持恒定。相反，在我们的案例中，数据项需要归一化以进行全局优化。

简而言之，我们的双层数据成本首先计算一维标签引起的小方形块上的匹配成本，然后汇总3D标签引起的大倾斜块上的匹配成本。尽管专为使用正面平行图像斑块进行一维视差标记而设计，但训练有素的神经网络能够纠正倾斜表面的部分投影变形。因此，小块 $R^L（q）$ 和 $R^R（q）$ 中的平行假设的误差仍然可以忽略。同时，大的Wp半径保证了与倾斜表面的一致性。

2）成对平滑项：我们对相邻像素对的平滑项具有以下形式：
在这里插入图片描述
其中平滑权重 $w_{pq}$ 与（4）中相同，以鼓励在对象边缘处更大的标签差异。 $τ_{dis}$ 是截断值。核心平滑能定义为

该功能可测量像素p和q处观察光线上两个3D平面的距离。较低的平滑能量更倾向于视差和3D法线在相邻像素之间平滑变化。主要优势在于，作为成对函数（一阶相互作用），事实证明可以对视差强制执行二阶平滑度[2]。另外，在许多情况下，这种能量会促进有效的子模融合[22]，这将在后面显示。
在这里插入图片描述

C.超像素结构构造

尽管在立体匹配中采用MRF模型是一种常见方法，但由于每个节点的3D标签空间无限且节点数量巨大，因此求解（2）的MRF仍具有挑战性[15]，[17]，[19] 。得益于我们精心设计的超像素结构，我们的方法能够在相对较大的区域中有效传播候选标签并同时融合它们，因此更有可能跳出错误的局部最小值并获得较低的会聚能量。

基于观察到，好的3D标注解决方案在大多数图像区域在空间上都是平滑的，除了在对象边界处是不连续的之外，我们生成了超像素级别的建议。然而，如果像[2]和[13]中那样直接从分割结果构造分段平面提议，则由于非亚模性质[22]，融合不能通过α展开有效地解决。因此，我们提出了一种新颖的超像素提议结构。出于效率方面的考虑，我们预先构建了超像素结构，在每次迭代过程中，可以从中轻松更新超像素建议。

我们的方法开始于使用简单的线性迭代聚类（SLIC）算法对输入图像重复执行M次多次超像素分割[29]。每个分割将输入图像分为B个超像素。通过为B分配不同的值，可以获得分别由小超像素和大超像素组成的不同分段，如图3所示。由于提案的3D标签将在每个超像素内部设置为几乎相同的值，因此较小的超像素会受到鼓励有关复杂表面的更多详细信息，而较大的超像素提供了跳出相应区域中错误的局部最小值的可能性。因此，多层超像素分割比单个超像素分割具有更高的精度。

为了生成可以有效优化的建议，每个超像素图像都需要满足其中的每个两个超像素在四邻居像素网格上断开的要求。同时，像素最好包含在尽可能多的超像素中。为了达到这个目的，我们对分割结果采用了一种新颖的区域侵蚀方法。

对于每个分割结果，我们首先将超像素分为K组，以使来自同一组的任何两个超像素在四邻像素网格上不相邻。根据四色定理[30]，始终存在K = 4的解。在实践中，我们使用有效的贪婪策略来达到K = 5的解决方案，以解决复杂性问题。图3中显示了真实图像上的一些分组示例，其中K个不同的组以K种不同的颜色表示，类似于四色问题。图4（b）进一步示出了在可能的小像素区域中的处理。

然后从每个分割的K个超像素组中，生成具有不同结构的K个超像素图像。对于第i个超像素图像，我们保持第ith组中的超像素不变，并对所有其他超像素使用5个像素的交叉核执行侵蚀操作。被侵蚀的像素被标记为“无效”。一个例子在图4（c）中示出，其中除来自黄色组的那些以外的所有超像素都被腐蚀。

经过上述处理步骤后，我们提出的超像素结构包含带有一些“无效”标记的K×M个超像素图像。此外，在每个超像素图像中，任何两个相邻像素要么属于同一超像素，要么包含至少一个“无效”标记。

D.优化

算法1中总结了PMSC优化的整个过程框架。从第2行的特定超像素结构开始，我们的方法在第5行和第6行迭代更新提案{P} = {S}∪{C}，并将它们与α融合。在第8行进行扩展。

我们的算法从第1行的随机初始化开始。每个像素分配有一个随机单位向量n0 =（nx，ny，nz）和一个随机值z0∈[0，maxdisp]，其中maxdisp是最大可能的视差值。然后，通过ap =-（nx / nz），bp =-（ny / nz）和cp =（（nxpx + nypy + nzz0）/ nz）计算相应的3D标签。

在每次迭代期间，通过在第4行进行随机采样独立地优化当前的最佳标签。每个3D标签首先被转换为视差和法线表示，然后，我们在 $[-Δ^{max}_z，Δ^{max}_z]$ 中迭代添加一个随机值到z0。，以及 $[-Δ^{max}_n，Δ^{max}_n]$ 到n0中的三个随机值。如果相应的新能量较低，则将z0和n0替换为新值。我们最初设置Δmaxz = maxdisp / 2 a dΔmaxn =1。在每次迭代之后，Δmaxz和Δmaxn减小一半。当Δmaxz≤0.1时，迭代精化停止。前一次迭代的较大间隔允许3D标签跳出完全错误的值，而后一次迭代的较小间隔通过搜索邻居值来提高3D标签的准确性。除了[1]的数据成本，我们的能量还包含四个相邻像素的平滑成本，即在这里插入图片描述
其中Ep（l）和Epq（lp，lq）与（2）相同。在这里用能量项进行细化尝试以贪婪的方式在所有其他像素标签不变的情况下找到最佳lp。同时，我们的新型SC尝试同时更新超像素内的像素标签，从而导致比现有方法更高的准确性。

在第5行，借助于我们的超像素图像，通过对lbest进行随机采样来更新超像素建议{S}。从每个层的每个超像素图像中，假设每个超像素中的真实标签很可能是一致的，则生成一个超像素建议。给定第i个由双超像素 ${U^i（b）| b = 1,2，...，B^i\}$ 组成的超像素图像和无效像素集 $Inv^i$ ，我们从每个 $U \dots \dots i （ b ）$ 中随机选择一个像素 $r^{i，b}$ 来找到当前最佳3D标签 $l^{best}_{ r^{i，b}}$ 。然后，通过在这里插入图片描述
由于我们精心设计的超像素结构，超像素建议中的任何两个相邻像素要么具有相同的3D标签，要么包含至少一个“无效”标签。在第6行，还通过从lrefine中重新组合标签以将精炼标签添加到候选标签集中来更新两个棋盘提案C0，C1。根据优化的最佳标签 $l^{refine}$ ，这两个建议将由在这里插入图片描述
换句话说，lrefine中的像素按棋盘格方式划分。一个提案包含所有黑色像素，而另一个提案包含所有白色像素。其余的职位则填有“无效”标记。在这种情况下，这两个建议与用于融合的超像素建议具有相似的属性。图5示出了超像素提议和棋盘提议的更新过程。在这里插入图片描述
所有超像素提案和棋盘格提案构成了提案集{P}。为了从{P}中找到最佳融合结果，我们通过对每个提案进行α展开图切割来迭代更新当前最佳标签 $l^{best}$ 。如[22]所示，仅当两个提议的成对条件满足时，α-膨胀才能从两个提议达到全局最小能量。在这里插入图片描述
其中 $l^{best}_p$ 和 $l^{best}_q$ 是 $l^{best}$ 中的像素标签，而 $l^α_p$ 和 $l^α_q$ 是扩展目标 $l^α$ 中的像素标签。否则，由于最小切割不对应于标记能量，因此α扩展找不到最佳标记。

一些现有方法直接将简单的立体声匹配方法的输出用作建议[2]，[13]。在它们的情况下，没有将约束添加到四个标签 $l^{best}_ p，l^{best}_ q，l^α_p，和l^α_q$ ，因此经常违反（11）。结果，只有融合动作[20]可以用于提案的融合。融合移动的缺点是计算复杂度高于α扩展，并且每次移动只能获得部分最佳融合结果而不是全局最小结果。

相反，通过将无限一元成本分配给所有“无效”标签，我们精心构造的超像素建议始终可以满足（11）。如前所述，相邻像素对之间仅存在两种标签关系。如果像素p和q在建议lα中具有相同的3D标签，即。， $l^α_p =l^α_q$ ，很容易验证（11）对于（6）和（7）中定义的 $E_{pq}$ 始终为真。例如，如果两个像素中的至少一个被标记为“无效” p，则意味着（2）中的 $Ep（l^α_p）$ 是无穷大，则像素p的标记始终是在该α-之后具有任何有限Epq的最小p。扩张。因此，对于任何lq，我们用Epq（lαq，lq）替换Epq（lαp，lq）。这样的修改对α-膨胀结果没有影响，而在（11）中能量函数退化为lαp =lαq的情况。因此，将提案与α扩展融合在PMSC中效果很好。

E.实施细节

对于全局PatchMatch方法，一个问题是较高的计算复杂度，这主要是由于对每个像素的3D标签进行自适应权重成本聚合的重复计算所致。使用超像素建议的优势在于，边缘感知滤波器（EAF）可以轻松降低计算复杂度[31]，[32]。由于每个超像素建议中的大多数像素都具有相同的3D标签，因此可以像[19]和[33]一样通过过滤同时计算其数据成本，而不是对每个倾斜的窗口执行冗余计算。高效的EAF直接应用于我们的超像素建议数据成本计算的CPU实现。如果使用GPU加速，则在我们的实验中对每个像素的补丁进行并行计算甚至比使用EAF快十倍，因此，在我们的GPU实施中未应用EAF。

所提出的方法在行1处随机3D标签初始化时效果很好。为了提高收敛速度，可以使用局部PatchMatch初始化。这个想法首先是使用一种有效的局部方法为每个像素分别找到一个良好的3D标签，然后使用SC从良好的起始值中找到全局最佳分配。障碍之一是本地PatchMatch具有很高的计算复杂度。因此，现有的实施方式根本没有效率。但是，在我们的案例中，我们以可接受的运行时间以大规模并行方式实现了本地PatchMatch，方法是将本地PatchMatch的顺序顺序传播替换为红黑顺序传播[34]。我们对本地PatchMatch初始化的实现有助于PMSC更快地收敛，而没有其他影响。

我们的算法管道是为一个视图设计的。在为左视图或右视图计算视差图时，仅在该视图上采用所有分段和优化操作。结果，我们的算法对不一致的分割具有鲁棒性。为了获得最终结果，我们分别在左视图和右视图上运行我们的算法；然后，使用自定义的左右一致性检查来查找具有 $|d^L_p− d^R_ {p'}|> 1$ 的不一致像素。 .这些像素将用与较低视差相对应的左或右最近的一致3D标签重新填充。不执行其他任何后处理。

四。实验内容

A.参数设定

在实验中，我们根据Middlebury 3.0基准[35]评估了我们的方法，该基准由30组高分辨率（最大3000×2000）图像组成，并由Middle21 2006数据集[36]组成，该数据集由21低分辨率（（约450×350）图像组。首先，我们根据官方Middleiddle 3.0基准以不同标准评估我们的排名。接下来，我们测试每个模块的效果。然后，我们给出与其他基于PatchMatch的全局方法的比较结果。最后，我们分析了对参数和运行时间的敏感性。

我们的实验是在配备有40G内存的i7-6700K 4.0 GHz CPU和GTX TITAN X显卡的PC上进行的。对于数据项，我们使用11×11的小窗口进行CNN像素相似度计算，并将截断阈值τsimto设置为0.5。 CNN接受了Middlebury 2001、2003、2005、2006和2014数据集的所有图像训练[27]，[35]-[37]。从每个图像对的每个11×11色块生成一个正样本和一个负样本。在可能的高分辨率图像的情况下，我们将较大的41×41值用于倾斜的匹配窗口。用于成本聚集权重的参数γ设置为5。对于正则化项，将超像素层数M设置为4，预期超像素数分别为200、1000、5000和25 000。 $τ_{dis}$ 被设置为2以截断视差不连续性。为了平衡数据项和正则项，将λ设置为1。我们迭代五次以优化统一的能量函数。在我们所有的实验中，上述参数保持不变。

B.对Middlebury Benchmark的评估

我们的方法的准确性在Middlebury 3.0基准上进行了评估。它具有30个高分辨率图像对，这些图像对具有挑战性的条件，例如轻微的校正误差，不同的曝光或左右图像之间的照明度。图像对分为训练和测试集，每组15个图像对。划分的目的是防止过多的参数调整。测试集的地面真实差异图被隐藏，算法结果仅允许一次评估。相反，提供了训练集的地面真理视差图以帮助算法开发。用于排序的总错误率是15个图像对的错误率的加权平均值。

为了公平比较，我们使用半分辨率（最大1500×1000）进行基准评估，这与其他排名最高的方法相同。
在这里插入图片描述
表一显示了我们的方法在测试集上不同标准下的平均误差，以及其他前五种方法，包括MC-CNN [5]，MeshStereo [11]，TMAP [38]，IDR [39]和SGM [ 40]，则在默认标准“不良2.0”的排名下。 “ MC-CNN-acrt”是MC-CNN的准确版本，而“ MC-CNN-fst”是快速版本。在全分辨率下，“差0.5”，“差1.0”，“差2.0”和“差4.0”分别代表大于0.5、1.0、2.0和4.0像素的视差错误率。 “ Avgerr”是指平均绝对误差（以像素为单位）。 “ RMS”表示以像素为单位的均方根视差误差。 “ A50”，“ A90”，“ A95”和“ A99”分别是以像素为单位的50％，90％，95％和99％误差分位数。我们的方法在所有十项标准中均排名第一，优于其他所有已发布的排名最高的方法。由于输入图像的分辨率为一半，因此“差的2.0”和“差的1.0”标准分别对应于Middlebury 2.0基准的“错误阈值1.0”和“错误阈值0.5”，这是用于比较图像质量的标准。立体声匹配精度。

我们还证明了在表II中采用相同准则进行培训的最佳方法的排名。在所有十个条件下，我们的方法仍然排名第一。结果表明，我们的方法在所有30个图像对的不同挑战情况下均具有出色的性能。

图6分别显示了15个测试图像对中表现最好的方法的“不良2.0”错误率。我们列出了当前三种方法的性能，以及广泛使用的SGM [40]进行比较。我们的方法在15个测试图像对中的13个达到了最低错误率。图7显示了15个训练图像对的相同错误率。我们的方法仍然在15个训练图像对中的10个上达到最低的错误率。

即使包括未发布的方法，我们的方法仍然是最准确的算法。表III显示了提交时Middlebury 3.0基准测试的总体排名。在网页上，当前建议的方法在“不良0.5”，“不良1.0”，“不良2.0”，“ avgerr”，“ rms”，“ A50”和“ A99”这七个标准下排名第一，第二或根据其他三个条件的第三个。

除了较低的错误率，由于相切平面法线和深度的联合正则化，我们的方法还生成具有更好的二阶平滑度的视差图。为了可视化二阶平滑度，我们在新颖的视图下为从顶级性能方法生成的每个视差图绘制了3D网格。视差中的微小误差会导致局部法线方向的变化更大，这可以在相应的3D网格中轻松观察到。图8显示了通过三种排名最高的方法得到的三个图像对的结果以及groundtruth。在没有纹理的情况下渲染3D网格，以表达有关子像素精度的更多细节。即使在MeshStereo也基于3D标签的情况下，在生成的MC-CNN和MeshStereo网格中也可以清楚地观察到光滑物体表面上的小凸起。与其他两种排名最高的方法相比，我们的方法生成了更自然和准确的3D网格，这些网格与groundtruth更相似。

在这里插入图片描述

在这里插入图片描述
图9显示了我们方法的一些输出差异图，以及两种广泛使用的方法PatchMatch立体声[1]和SGM [40]。在具有挑战性的图像区域，例如，“ Adiron”的扶手，“ Playrm”的墙壁和“ Playt”的桌子和地板，以及“ Recyc”的回收站边界，我们的视差图在视觉上更加准确和自然。

C.每个模块的有效性

为了分别证明CNN相似性（PMCNN）作为数据项和多层SC作为正则化项的PatchMatch聚合的贡献，我们使用不同的设置测试了我们的方法。完整方法表示为PMCNN + SC，表示两个模块均处于活动状态。对现有基于PatchMatch的一元成本进行了测试以进行比较。原始PatchMatch立体声的强度梯度数据成本无法处理数据集中的曝光或照明变化，

因此会产生更大的错误率（某些图像对的错误率超过70％），在此省略。相反，我们用广泛使用的梯度普查数据成本（由PMGC + SC表示）代替一元项。为了说明预训练相似性的优势，我们用梯度普查相似性替换了底层补丁的CNN相似性，用PMBLGC + SC表示。为了说明SC的有效性，我们通过设置λ= 0（表示为PMCNN）来隔离SC的正则项。为了更详细地与全局PatchMatch方法的现有最佳正则化术语进行比较，我们还在[17]中实现了LSL，该LSL在关闭基准时在旧的Middlebury 2.0基准上的错误阈值0.5排名第一，并使用了PMCNNas一元术语，表示为PMCNN + LSL。

表IV列出了相应结果的错误率。在所有三个错误阈值下，PMCNN + SC的错误率均比PMCNN和PMGC + SC低得多，这表明PMCNN和SC都对高精度起到了很大作用。此外，PMCNN + SC的性能也优于PMBLGC + SC，这表明CNN相似性在双层匹配成本方面具有优势。
在这里插入图片描述
PMBLGC + SC甚至比PMGC + SC差的原因是，前者放弃了校正倾斜表面的能力的一部分。与PMCNN + LSL相比，PMCNN + SC仍然达到较低的错误率，这表明，作为正则化项，我们的新型SC优于现有的全局PatchMatch方法的最新正则化项。
在这里插入图片描述
还测试了另一设置以显示分段精度的鲁棒性。如图10（b）所示，我们将SLIC超像素直接替换为大小相似的正方形网格超像素，这是分割不准确的极端情况。图10以“ Adiron”的不同设置的错误率为例。使用SLIC超像素进行的优化可以达到最低的错误率，这表明良好的分割有助于提高算法的准确性。另一方面，直接使用网格超像素的精度也不会差很多，这表明我们的算法对分割错误具有鲁棒性。 “ Mix”设置是两个视图的分割不一致的示例，并且相应的错误率在其他两个设置之间，这表明我们的方法不会受到分割不一致的影响。在表IV中还列出了在整个训练集上使用网格超像素的结果，用PMCNN +网格表示。总体错误率显示出相同的结论。由于不准确的超像素内部的像素与完美的超像素内部的像素不太可能共享相似的3D标签，因此沿不准确的超像素进行的传播效果不佳。同时，我们的能量函数不鼓励来自同一超像素的像素具有相同的3D标签。因此，不正确的细分不会严重降低我们的准确性。此外，当计算一个视图的视差图时，所有超像素层仅在该视图上进行分割；因此，我们的方法对于分割不一致是鲁棒的。

D.与其他全局补丁匹配方法的比较

然后，我们将我们的方法与其他全局PatchMatch方法进行比较，包括PMBP [15]，SPM-BP [19]和GCLSL [17]。自从由名为“ Tsukuba”，“ V enus”，“ Teddy”和“ Cones”的四个图像对组成的旧的Middlebury 2.0基准几乎已经解决之后，它不再处于活动状态，并且已升级到3.0版本具有挑战性的条件。但是，大多数现有的全局PatchMatch方法都设计用于约0.1 Mpixel的低分辨率图像。在新基准上超过1 Mpixel的高分辨率测试图像对上，它们很难处理。

例如，在合理的设置下，GCLSL [17]需要2个小时来处理一对图像，而PMBP则需要一天以上。因此，我们使用三分之一分辨率的Middlebury 2006数据集[36]进行全面比较，该数据集由21个0.1 Mpixel的图像对组成，每个图像对之间的曝光或照度没有变化。作者提供了PMBP [15]和SPM-BP [19]的实现。我们还通过微调参数实现了GCLSL [17]。对于PMBP，我们建议将粒子数设置为K = 5，迭代时间T = 5。对于GCLSL，我们将迭代时间T设置为10。为了公平比较，将PMBP，GCLSL和我们的方法的补丁大小都设置为41×41，而作者对SPM-BP的参数进行了调整。
在这里插入图片描述
表五显示了上述方法的误码率以及我们在21对测试图像对中的误码率，误码阈值为一个像素。在非遮挡区域上评估错误率，这些区域是从提供的左右地面真相视差图计算得出的。我们的方法在21对图像中的17对中达到了最佳精度。请注意，对于包含大型无纹理区域的图像对，现有的全局PatchMatch方法无法很好地处理这些图像对，我们的错误率远低于第二好的错误率。平均错误率是在最后一行中计算的，没有像Middlebury 3.0基准那样使用不同的权重。因此，平均错误率的等级取决于应对最具挑战性情况的能力。

图11显示了以前方法中某些视差图的可视化。错误视差用红色标记。我们在这里列出四组结果。前两行显示倾斜曲面的情况。尽管所有基于PatchMatch的方法都可以很好地处理3D标签带来的倾斜表面，但是我们的方法在极端倾斜的表面上效果更好，在弯曲物体边界附近产生的误差较小。下两行显示无纹理区域的情况。对于成对的MRF模型，无纹理区域会导致许多强局部最小值，而现有方法很难跳出来。相比之下，我们的多层SC对错误的局部最小值更健壮，而来自CNN的像素匹配成本对噪声更健壮。结果，尽管理论上无法通过立体匹配完美解决无纹理区域，但PMSC在无纹理区域上的性能要比其他全局PatchMatch方法好得多。
在这里插入图片描述

E.参数和时间分析

然后，我们评估我们的方法对某些关键参数的敏感性。参数λ平衡一元数据成本和成对正则化成本的贡献。当λ设置为0时，PMSC退化为本地方法，而当λ设置为极大值时，输出视差图肯定会过平滑。但是，PMSC的性能在较大范围内对λ不敏感，如图12（a）所示。我们列出了来自Middlebury 3.0基准测试集的三个随机选择的图像对的错误率。当从0.1 t o 1 0缩放λ时，所有三个图像对的错误率变化缓慢。当λ> 10时，由于平滑度过高，错误率会迅速增加；而当λ<0.1时，由于正则化不足会导致错误率缓慢增加。注意，x轴以对数坐标表示。窗口大小W控制近似切平面的区域。较大的窗口在曲面上会引起更多的投影误差，而较小的窗口则对歧义性不那么可靠。如图12（b）所示，PMSC的性能在相对较大的范围内对W也不敏感。

还详细分析了超像素层的数量M和超像素的数量。图13示出了在两种图像对上具有不同的M值和超像素尺寸的性能。我们为六个不同的设置生成了六个不同的分割层，可供选择，每个都有8、40、200、1000、5000和25000个预期的超像素。使用0–6个最大的超像素层的错误率绘制为“ M-大”，而使用0-6个最小的超像素层的性能则绘制为“ M-小”。图13（a）显示了“ Motor”的错误率，其中包含足够的纹理和复杂的场景结构。图13（b）显示了“书架”的错误率，其中包含较大的无纹理但平坦的区域。当M较小时，临界超像素大小取决于预期的场景结构。如图13（a）所示，对于“电机”，使用三个最小的超像素层的错误率要比使用三个最大的超像素层的错误率低得多。同时，图13（b）显示了与“货架”相反的结论。原因是，与较小的超像素相比，使用较大的超像素的传播能够同时改善较大的区域，但是在理想标签处进行采样的机会较低，因为3D标签错误会因长距离传播而扩大。因此，小的超像素层对于纹理化和复杂的场景至关重要，而大型的超像素层对于无纹理的平面至关重要。另一方面，毫无疑问，在两种场景中使用更多具有不同超像素大小的图层会导致更好或至少相似的精度，而由于附加的定影操作，运行时间几乎与M成线性关系。
在这里插入图片描述

图14显示了具有不同迭代时间的性能。图14（a）以“ Adiron”图像对的总能量变化为例，具有不同的超像素层M和不同的迭代时间。当M = 0时，类似于SPM-BP和PMBP，所提出的方法退化为针对每个像素的贪婪搜索。优化陷入高能量状态。当M从1增加到4并添加更大的超像素时，我们的方法能够跳出更具挑战性的局部最小值状态，从而以较少的迭代次数以较低的能量收敛。图14（b）分别显示了使用和不使用本地PatchMatch初始化的“ ArtL”图像对的错误率。当优化从随机3D标签开始时，错误率从几乎100％缓慢降低，并在大约25次迭代后收敛。如果从本地PatchMatch初始化开始，优化将在几次迭代中收敛。请注意，两种设置下的融合错误率均相同。本地PatchMatch初始化步骤在没有其他影响的情况下加快了收敛速度。
在这里插入图片描述
说到运行时间，我们的方法大约需要10分钟才能为高分辨率图像对（大约1500×1000）生成两个视图的最终视差图，其中从Middlebury 2014数据集获取的视差级别高达380，对于低分辨率图像对大约需要60 s来自Middlebury 2006数据集的具有更少视差层（最多85个）的高分辨率图像对（约450×350）。为了进行比较，要处理来自Middlebury 2006数据集的一对低分辨率图像，SPM-BP大约需要40 s，而PMBP则需要17000 s（带有建议的参数）。我们的方法是全局PatchMatch方法中最快的方法之一。

五，结论

在本文中，我们提出了一种具有二阶平滑度正则化的新颖的基于3D标签的精确立体匹配方法。我们提出了双层匹配成本，以结合从CNN生成的像素相似度值和PatchMatch立体声的倾斜补丁匹配，从而保留了两种测量方法的优势。为了为每个像素生成候选3D标签集，我们通过在多层超像素上传播和随机细化提出了一种新颖的策略。全局正则化定义为具有3D标签的像素网格MRF能量，由于我们新颖设计的提案结构，可以通过α展开图切割直接优化全局正则化。评估表明，该方法获得了高度精确的视差图，并且在所有现有方法中，目前在官方Middlebury 3.0基准测试中排名第一。与也基于PatchMatch的其他全局方法相比，该方法在Middlebury 2006数据集上取得了更好的结果，并且对高分辨率图像更有效。将来，我们希望将语义信息添加到PMSC模型中，并将我们的算法扩展到多视图场景。