论文《Patchmatch-Based Robust Stereo Matching Patchmatch-Based Robust Stereo Matching》学习

Abstract

在现实世界中,立体视觉系统面临的两大挑战是:在各种辐射变化下的稳健系统和实时过程。为了从立体图像中提取深度信息,本文提出了一种基于patch的快速立体匹配算法。为此,我们设计了一个成本函数,并将其最小化以获得一个精确的视差图。具体地说,我们使用先验概率来最小化遮挡区域,使用考虑物体凹凸性的平滑项来提取精细的视差图。为了评估提出的方案的性能,我们使用了具有辐射变化的米德尔伯里立体声数据集。实验结果表明,该方法在像素误差和处理时间方面分别比现有方法提高3.35%和4.71 - 27.24倍。因此,我们相信所提出的方案可以成为一个有用的工具,以计算机视觉为基础的应用。

1.Introduction

从图像中提取三维信息是计算机视觉中一个长期的研究领域。立体匹配仅利用一对摄像机获取三维信息,已成为多视点三维计算机视觉的基本方法。此外,立体匹配不仅为三维视觉系统,而且为其他计算机视觉算法,包括分割、检测、识别及其应用提供了有用的信息。然而,要在现实世界中应用立体匹配,必须考虑在各种辐射条件下的立体图像。特别是参考图像和目标图像之间的辐射变化;因此,获取一个清晰的视差图是很困难的,因为我们无法确定在辐射变化下,点与点之间的颜色一致性。为了解决这一问题,几十年来已经研究了几种算法。Hirschmuller和Scharstein[20]提出非参数方法包括census变换(CT)[9],分层互信息(HMI)[19],和背景减法的双边滤波[26]Birchfield和预[18]下强劲辐射变化比较差异等基本方法和(SAD)和归一化互相关(NCC)的计划。自适应正态化互相关(ANCC)[1]使用对数色度归一化来产生颜色一致的立体图像,并使用NCC来获得视差值。然而,使用成本聚集后的图切割的优化在减少遮挡区域方面显示出有限的性能,即使多次迭代。联合深度图和颜色一致性(JDMCC)[2]通过使用迭代立体颜色直方图均衡化(SCHE)方案扩展了ANCC的对数色度归一化。此外,它使用尺度不变特征变换和互信息来计算匹配代价。然而,如果颜色不匹配,SCHE处理不正确的立体图像,并产生一个错误的视差图。梯度累积密度函数(CDFofGrad)[3]利用RGB通道的累积梯度信息。在不发生辐射变化的情况下,CDFofGrad在立体图像的边缘或梯度上显示出良好的性能。然而,该梯度只包含高频信息,在立体图像的宽平面区域产生噪声。基于自适应描述符(AdapDesc)的算法[4]提出了一种利用低频和高频信息的17维局部描述符。然后,根据参考熵和目标块的大小,将自适应加权方法应用于描述符。然而,计算自适应加权非常复杂。此外,熵不能考虑块结构和物体形状的变形,这会导致不正确的自适应权重。Kemeny和snell的基于距离和分段的平面拟合(KSP)方法[21]采用畸变度量来计算辐射一致性,并在Rhemann等人[17]中将平面拟合作为滤波权值应用于代价体积空间,对边缘胖化问题是有效的,但是,平面拟合前的均值漂移分割对参考图像的情况敏感,导致过分割或欠分割,产生噪声或块状结果。改进的人口普查变换[22]将中心像素和平均值与相邻像素进行比较,并使用稀疏的汉明距离[27]来降低计算成本。然而,在辐射变化下的匹配代价可能是不稳定的,从而导致视差失真。

特别是,这些算法在辐射变化的情况下以较高的计算代价获得清晰的视差图。为了快速获取视差图,近年来研究了基于Patchmatch(PM)的[6]立体算法。PM提出了一种随机初始化和传播方案来快速确定相应的点。PM stereore[7]使用过参数化视差来计算倾斜平面上的精细视差值。PM信度传播(PMBP)[8]用最大积粒子信度传播(MP-PBP)扩展了PM立体。PMBP报告了有效的局部能量最小化方案,结果明确。然而,在大的遮挡区域附近,特别是在辐射变化下,很难区分误差和校正差异。这将导致传播错误。此外,视差的不稳定平面f具有很高的概率。PMBP存在能量最小化的不稳定f。此外,Nair等人提出了一种用于反射表面的鲁棒立体匹配方法,这是现实世界中另一个具有挑战性的问题,该方法基于PM立体视觉,在高维成本空间中进行了有效的优化。

为此,本文提出了一种立体匹配算法,以克服在辐射变化条件下计算量大、视差估计不稳定的问题。基于PM立体框架,我们使用CT来提取立体图像的模式和减少辐射变化的影响,而不需要额外的计算色彩张力或描述符的创建。为了反映上述情况,设计了成本函数,并进行了有效的微型化。为此,我们引入了先验概率项,该项通过对视差值使用局部先验概率和全局先验概率来发现和修正遮挡区域。此外,平滑项考虑了物体的凹凸性,以获得良好的视差图。

本文组织如下。第2节用CT和先验项描述了该方法的详细方案。第3节给出实验结果及其分析,第4节给出结论并进行讨论。

2 PROPOSED METHOD

该方法将视差值表示为立体图像的z坐标。PM立体[7]定义了过参数化的差异的属性,参考图像上像素 p = [ p x , p y ] p=[p_x,p_y] p=[pxpy]处的平面fp为 f p = [ a p ; b p ; c p ] f_p=[a_p;b_p;c_p] fp=[apbpcp]和差异值 d p = p T f p ′ d_p=p^Tf_{p'} dp=pTfp,其中二维坐标向量p=[px;py;1]T。所提出的方法将能量最小化问题定义为
在这里插入图片描述
其中 E d a t a ( p ; f p ) E_{data} (p; f_p) Edata(p;fp)是一种数据项成本函数的基础上点音响和应用于CT [9], E s m o o t h ( d p ; d q ) E_{smooth}(d _p; d_q) Esmooth(dp;dq)平滑项估算局部表面的凸性由p和它的邻居,和 E p r i o r ( d p ) E_{prior} (d_p) Eprior(dp)是前一项通过先验概率的差异值。此外, β s 和 β p \beta_s和\beta_p βsβp是归一化和控制每一项相关性的参数。
在这里插入图片描述
图1给出了该方法的总体方案。首先,与其他基于PM的方法类似,通过随机初始化得到初始的视差映射,经过几次迭代后得到最终的不均匀度映射。对于静态立体图像,PM立体声提出了两个传播步骤:空间传播和视图传播。在空间传播中,像素p从其邻域接收新的平面f’p,如果 E ( p ; f p ) E(p;f_p) E(pfp)大于 E ( p ; f p ′ ) E(p;f'_p) E(pfp),则f p更新为f’p。由于平滑项 E s m o o t h ( d q ; f p ) E_{smooth}(d_ q;fp) Esmooth(dqfp)和先验项 E p r i o r ( d p ) E_{prior}(d_p) Eprior(dp)可以减小误差区域,使得像素能够从邻域接收到足够好的属性,因此该方法不采用PM立体图的视点传播步长,从而降低了计算量。在传播之后,我们估计了先验项的局部和全局先验概率。初始视差图不能估计先验项的概率分布函数(PDF),因此在第一次传播发生之前,该方法用 E p r i o r ( d p ) = 1 E_{prior}(d_p)=1 Eprior(dp)=1固定先验项。平面细化也基于PM立体声,但它采用了来自上一项的局部和全局分布的统计信息。在每个迭代中,传播、估计PDF和平面细化步骤按顺序重复。最后,对最终的视差图进行再处理。

2.1 Data Term Using CT( census transform)

一个像素点p处的CT值,根据其与相邻8个像素点的强度差值,有8个二进制位,如图2所示。二进制位与强度差的数量无关。CT可以在立体图像的辐射变化下发现相同的强度模式。此外,立体像的CT在强度改变时是一致的,但其强度模式不受辐射变化的影响。因此,CT可以在不使用其他方法的情况下,在辐射变化下找到相应的像素点。该方法基于PM立体声的成本函数,在像素p处定义Edata为
在这里插入图片描述
其中N §是一种nxn块集中在p, q 0是相同的目标图像的像素空间位置q, w (p, q)是自适应支持体重(ASW) [10], H ( ⋅ ) H(\cdot) H()是二进制位的汉明距离函数和T是汉明距离的截断值。ASW定义为
在这里插入图片描述
其中, Δ C p q 和 Δ g p q \Delta_{C_{pq}}和\Delta_{g_{pq}} ΔCpqΔgpq分别代表CIE lab颜色空间的光度差和p、q点空间坐标的几何差。 γ c 和 γ p \gamma_c和\gamma_p γcγp是控制 Δ C p q 和 Δ g p q \Delta_{C_{pq}}和\Delta_{g_{pq}} ΔCpqΔgpq相关性的参数。ASW用于检测N§的支撑区域,防止边部肥厚引起的变形。

2.2 Smoothness Term for a Convex Plane

在PM[6]的能量最小化问题中,传播步骤的工作原理类似于平滑项。通常,传播只能在最近的两个像素之间进行,而且它可能不考虑本地属性并导致错误。为了解决这一问题,在PM中使用平滑项是增强传播的有效方法。PMBP[8]使用MP-PBP作为平滑项。特别地,它使用了一个像素平面而不是视差本身来最小化像素p与其邻居之间的代价,因为当物体表面倾斜时,即使正确地获得视差值,视差的推导也会产生误差。然而,与典型的能量最小化方法相比,MP-PBP需要更高的计算成本。因此,我们使用一个考虑倾斜平面的廉价平滑术语。此外,我们估计了凸表面条件,使凸物体上的能量最小化。

为了估计以p为中心的局部区域的凸性,我们使用像素的两个相干和单位法向量 n = [ n x , n y , n z ] n=[n_x, n_y, n_z] n=[nx,ny,nz]。相干性一般是指图像及其属性的变化是平滑的、连续的;因此,n变化平稳且连续。
在这里插入图片描述
另外,以p为中心的局部区域可以估计为各个球体的一部分,如图3所示。参数np是单位法向量,它与平面fp和视差dp之间存在关系
在这里插入图片描述
在这里插入图片描述
然而,在局部区域内精确地估计一个球面是很困难的。为了解决这一问题,我们首先利用平面f p计算局部斜面,然后利用单位法向量n p和n q简单地建立凸曲面,如图4所示。凸平面的光滑项定义为
在这里插入图片描述
其中w(p,q)是ASW,与式(2)相同。 E s m o o t h ( d q ; f p ) E_{smooth}(d_q;f_p) Esmooth(dq;fp)中的ASW可以防止在局部区域遇到极端变化(如边缘与邻居缺乏一致性)时出现临界误差。

2.3 Prior for Disparity

立体图像中的遮挡是由于前景物体由于视点的不同而具有不同的背景,从而导致视差图的值不正确造成的。通常,一个代价函数不能确定一个遮挡区域中的对应点。因此,估计的视差图在遮挡区域包含一个不正确的值。为了解决这个问题,PM立体声在后处理步骤中应用了左/右张力检查和闭塞填充,Rhemann等人使用了[17]。一致性检查和遮挡填充策略是减少遮挡区域的一种简单而有效的方法,但由于左右视差图是必需的,因此需要双倍的计算代价。Lim等人[16]提出了一种不需要左右一致性检查的快速有效的遮挡填充方法,该方法简化了相干敏感哈希(CSH)[12],将参考图像分类为1024个属性,并用每个属性的中值代替遮挡像素。然而,CSH中的索引步骤不考虑像素的位置,将参考图像分类到散列表中,这会导致如图5所示的伪影,因为它不能反映差异的一致性。为了使其更适合实时处理,该方法扩展了Lim等人的方法,并使用局部和全局属性对像素进行分类。此外,通过在反映分类分布先验信息的成本函数中加入一个先验项来估计准确的视差值。
在这里插入图片描述
首先,为了将参考图像分类为局部属性,该方法采用了一种最先进的分割算法——简单线性迭代聚类超像素(SLIC)[11]。SLIC使用CIE lab颜色空间和空间坐标的距离将参考图像分割为非重叠的K-super像素。超像素中的像素在局部区域具有相似的属性。超像素中的视差也趋向于分布在一个特定的不均等值附近。通过使用这个属性,我们估计了差异的PDF,这有助于评估差异的可靠性。前一项考察了将遮挡区域重构到合适视差的可靠性。为了更容易地估计PDF,该方法将超像素设置为包含足够的像素,并以正态分布的形式估计PDF。因此,该方法利用第k个超像素Sk中的视差先验概率 P S k ( d p ) P_{S_k}(d_p) PSk(dp)来定义视差的可靠性
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
其中 p k 、 f p k 和 d p k p^k、f ^k _p和d ^k _p pkfpkdpk分别表示在 S k S _k Sk中的像素位置、平面和方差。尽管如此,可以观察到超级像素包含在非常大的遮挡区域中的像素,并且像素的数量不足以产生适当的正态分布。此外,如果一个超像素具有混合的视差分布,则估计出一个错误的正态分布。在这种情况下,利用式(6)计算出正确的先验概率是困难的。为了补充局部先验概率,先验项使用CSH利用全局属性对参考图像进行分类。值得注意的是,该方法不使用灰度编码核[13]对像素进行分类,而是使用整幅图像,因为灰度编码核的块大小限制为2的幂。特别地,我们只使用了三个内核将参考图像分类为极度碎片化的图像,如图6所示。然后从实验通道中提取5张滤波后的图像,如图7所示,根据图像的分布将每个滤波后的图像量化为2比特。然后,我们将5个2位值连接到一个10位代码,该代码将给定的像素分类到第i个散列表。
在这里插入图片描述
全局视差先验概率 P C i ( d p ) P_{C_i}(d_p) PCi(dp)在第i个哈希表中, C i C_ i Ci
在这里插入图片描述

2.4 Plane Refinement

在这里插入图片描述
在这里插入图片描述

3 EXPERIMENTAL RESULT

3.1 Experimental Environment

为了评价该方法的性能,我们从米德尔伯里立体声基准[15]中选择了六组三分之一大小的不同ratio-metric条件的立体声数据集。我们固定了参考图像1的曝光和照度等级,如图8所示。目标图像在三种曝光水平下,即0-2和两种照度水平,即1和2,有六种无线电测量变化组合,如图9所示。我们分别用 i l l ( ⋅ ) 和 e x p ( ⋅ ) ill(\cdot)和 exp(\cdot) ill()exp()表示目标图像的照度和曝光水平。该方法使用MATLAB 2016b在Intel® corei7CPU(4.20GHz)和32GBRAM上实现。表1列出了实现参数。其中maxdisp是视差值允许的最大值。和PM立体声[7]一样,我们进行了三次迭代来获得视差图。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
为了定性地评价实验结果,我们使用了由
在这里插入图片描述

3.2 Self Analysis on Cost Terms

在将所提出的方法与最新方法进行比较之前,我们分析了成本函数中的主要项对所提出方法的影响程度。作为基线算法,我们通过用公式(2)中类似的公式CT[9]替换强度相似性度量来选择PM立体。但是,由于基线系统也不包括一致性检查,因此该方法在后处理中不采用一致性检查。

3.2.1 Analysis on Support Weights

首先,我们比较了两个支持权重因子:ASW[10]和PM立体声的RGB权重。如表2所示,ASW在大多数情况下性能更好。更详细地说,从图10可以看出,应用Eq. (5), ASW可以有效地工作在复杂的物体上(具体观察情况见实心的红色圆圈)。ASW和RGB的基线结果分别如图10b和10c所示,没有产生明显的差异,但是在stick附近会产生较大的噪声误差。如图10所示,使用RGB权重的建议框架比基线方法提供了更平滑的结果,尽管有很多模糊。相比之下,图10f中提出的方案对棒的变形更小,效果最好。此外,在没有先验项(bp =0)的情况下,该方案的结果看起来很相似,但在复杂物体周围的噪声更大。
在这里插入图片描述
在这里插入图片描述

3.2.2 Analysis on a Smoothness Term

分析了平滑项的作用。为了简单比较,我们将式(5)中的平滑项替换为PMBP[8]中的平滑项,称这种情况为BP。将参数bp分别赋值为0和2.5,用于评价有或没有前一项时的效果。表3和表4总结了分析结果。表3显示了所有情况下的平均坏像元误差,如图8和图9所示。在没有先验项的情况下,所提出的方法和BP算法都能较好地执行基线算法,所提出的方案的结果优于BP算法。以类似的方式,结合前一项,两者也能显著改善结果。此外,图11图解地说明了在各种条件下的结果。
在这里插入图片描述
在这里插入图片描述

3.2.3 Analysis on a Prior Term

在这里插入图片描述
但局部先验作用有限,特别是在图13b中实心绿色椭圆标记的大遮挡区域,局部先验丢失了部分目标,如图13b中实心蓝色圆圈所示,这是由于超像素中的不完全聚类造成的。当用绿色椭圆观察全局先验时,全局先验比局部先验表现得更好。然而,人工制品仍然留在花盆和叶子的表面(参见图13c中的实心红圈)。如图13d所示,结合局部先验和全局先验可以改善绿色椭圆的视觉质量,但蓝色圆圈内的叶子是分离的。最后,利用平滑项对图13d的结果进行了细化处理,减少了伪影。表5定量总结了分析结果。全局先验在非遮挡区域(NOCC)上提供了更好的输出。这意味着全局先验比局部先验更能抵抗遮挡,但它会随机产生伪影,使算法稳定。因此,我们可以利用本地和全球的优势来克服个体的弱点,并带来协同效应,从而形成一个不同的区域地图。
在这里插入图片描述
在这里插入图片描述

3.3 Comparison Result

为了评估该方案的性能,我们选择了五种最新的方法:JDMCC[2]、CDFofGrad[3]、AdapDesc[4]、KSP[21]和MS[22]。如作者所述,JDMCC在c++中进行了测试,其他的在MATLAB中实现。图14图形化地说明了在辐射测量变化情况下,差像素误差方面的比较结果。特别地,表7列出了所有情况下的平均坏像素错误,如图8和图9所示。为了进行公平的比较,由于AdapDesc、CDFof-Grad和KSP没有使用一致性检查和遮挡填充步骤作为后处理,因此只考虑视差图中没有遮挡区域。然而,表7报告了综合比较的ALL和NOCC结果。很容易观察到,在图14所示的大多数情况下,所提出的方法优于其他方法,即使JDMCC在某些情况下给出了最好的结果。但是,在特定的情况下,AdapDesc、CDFofGrad和JDMCC会造成较高的坏像素误差,如图14c、14d和14e所示,而本文提出的方法具有稳定一致的性能。特别是,所提出的方法在计算时间方面提供了最好的性能,如表6所示。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
我们的系统处理时间的范围是最小的4.71倍(CDFofGrad)和最大的27.24倍(AdapDesc)比那些比较的方法。在计算代价的平均统计量上,该算法包括随机初始化步长(含代价计算)占11%,传播步长占58.1%,平面精化占27.4%,顺序步长占剩余计算代价。相比之下,JDMCC包含了高达61.9%的视差信息步长,高达10.3%的彩色一致性步长,高达26.25%的平面拟合步长,以及剩余计算成本的顺序步长。KSP包括成本计算占86.7%,平面拟合占13%。其他算法在所有像素的所有搜索范围内计算成本函数几乎要消耗计算时间(超过97%)。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
为了更好的观察,图15、16和17分别显示了Books、Cloth4和Moebius的三维法线贴图。在图15中,我们所提出的算法对红色实心圆内的物体产生的失真最小,但对蓝色圆内的倾斜物体表面产生的形状最连续。在图16a和图16b中,根据场景深度的等高线很容易被发现,而我们的方法是对倾斜的和反方向的物体保持平滑和连续的形状。此外,所提出的方案可以获得如图17所示的实心红、绿、蓝三色圆圈所示的各种物体形状的最佳三维重建结果。更准确地说,图17a显示了物体边界周围的形状失真(参见红色和绿色圆圈)。在图17b的红、绿、蓝三色圆圈内可以观察到许多物体上的裂缝,但是,从视觉质量上看,由该算法生成的物体在形状上更接近地面真实物体。可复制图像的源代码可在http://mmc.cau.ac.kr/publications-2/上找到。xxxxxxx

4 CONCLUSION

提出了一种基于辐射变化的立体匹配算法。具体来说,基于PM的[6]帧工作被用来克服计算成本高的常见挑战。为了获得良好的视差图,我们设计了一个包含平滑和先验项的成本函数。利用一种简单有效的方法对光滑项进行改进,使其考虑曲面的凹凸性,从而使该方法表达出更多的细节。此外,基于局部先验概率和全局先验概率,提出了一种新的先验条件来确定和修正不正确的视差,该先验条件有效地减少了误差区域。实验结果表明,该方法在平均坏像元误差和计算代价方面均优于现有方法。因此,我们相信所提出的演算法可以成为开发以计算机视觉为基础的应用程序的有用工具。

我们的研究重点是改进卷积神经网络算法,使其在[23]、[24]、[25]等实时应用中更具有实用性和扩展性。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值