论文《Depth Estimation From a Light Field Image Pair With a Generative Model》学习

2018SCI(一区)

Abatract

在这篇论文中,我们提出了另一种方法来估计由一对光场相机捕捉到的两幅不同的地图。我们的方法综合了两种临界深度线索,分别从极外平面图像和双目立体视觉中推导出一种全局解。同时,为了得到高精度的视差图,我们采用了一种生成模型,该模型仅能利用中心子孔径视图和相应的虚拟视差图来估计光场图像。我们的方法的目标函数是最小化两个能量项/差。一种是在灰度视差空间中直接优化提取的两类视差图与目标视差图之间的差异。另一个表示在RGB颜色空间中优化的估计光场图像和输入光场图像之间的差异。通过对真实场景和虚拟场景光场图像对的综合实验验证了该方法的有效性。
关键词: 光场,深度估计,视差图,极面图像,立体匹配,生成模型。

1. Introduction

随着商用光场相机的出现[1],[2],光场图像处理已经成为计算机视觉和计算机图形学界非常热门的研究课题[3]。原始光场图像可以被解码成规则的子孔径视图/图像阵列,即从稍有不同的视点的同一场景的多视角图像。光场图像也可用于合成产生密集的焦层。在后处理中,光场图像可以克服传统二维或立体图像难以解决的许多难题,如场景结构推断、图像重聚焦、新颖的视点合成等。

深度估计是光场图像处理中的一个基本问题。已有的一些方法探讨了EPIs[4] -[7]、遮挡与光一致性[8]、聚焦叠加[9]、[10]和多视点立体视觉[11]的特征,有的甚至采用生成模型[12]或经验贝叶斯框架[13]来构建深度推理框架。现有的方法通常将深度估计问题表述为一个常规的优化问题。也有一些研究[14]-[18]设计了特殊的卷积神经网络来从光场图像中推断深度。据我们所知,这些作品通常从单一的光场图像估计深度,而不利用双目深度线索。近年来,人们提出了两种新的基于深度学习的方法[19]、[20],它们结合了离焦和双极深度两种不同的信息进行光场图像深度推断。

从光场图像或立体镜图像对进行深度推断都有其固有的局限性。通常视差范围较窄的单光场图像的深度估计具有可靠的遮挡推断和遮挡区域深度估计的优点。然而,由于基线小,视差范围窄,这种视差往往不够准确。相比之下,从具有较大基线的立体图像对进行深度估计,可以得到具有较大视差范围的更精确的视差图,但对于复杂的薄结构(图1b)或非常大的无纹理区域(图2b),不能恢复精确的视差。
在这里插入图片描述
在这里插入图片描述
因此,结合这两种视差的方法可以克服这些限制,即使对于具有挑战性的场景也可以产生更精确的视差图(图1h和2h)。

在本文中,我们着重于从一对光场相机捕获的光场图像对中估计高精度的视差图。我们提出了一种同时利用从每个单光场图像和双目立体图像中分别推断出的两种深度线索的方法,即光场图像对之间的对应关系。采用结构张量技术[4]从单个光场图像的EPIs中提取初始粗糙视差图。这种方法通常返回包含子孔径视图边缘的精确视差值的粗糙视差图,为子孔径视图的齐次区域留下显著的噪声。此外,采用基于倾斜平面拟合的最新立体匹配方法[21]从输入光场图像对的两个中心子孔径视图估计视差图。我们的方法试图利用这两种视差图来进行精确的深度图估计。

为了生成高精度的视差图,我们采用了Sajjadi等人提出的生成模型的概念作为深度估计方法。这个生成模型只使用中心子孔径视图和相应的假设视差图来生成估计的光场图像。然后,通过最小化估计光场图像与输入光场图像之间的差异,得到中心子孔径视差图。由于光场图像通常包含大量的子孔径视图,利用这种生成模型的方法可以为目标视差图推理建立强相关性。

我们工作的主要贡献可以概括如下:

  • 提出了一种利用生成模型和凸优化技术对光场图像进行深度估计的方法。
  • 将由EPIs和双目立体视觉推断出的两种深度线索集成到一个统一的解中,以获得高精度的深度估计。

本文的其余部分安排如下。在第二节中,我们回顾了与光场图像深度估计相关的现有工作。在第三节中,我们介绍了我们的方法如何从输入光场图像对估计视差图。我们在合成光场成像仪对(图1,2,3,4,6,7)和带有Lytro illum相机的真实场景光场图像对(图8,9,10,11)上进行的实验显示在第五节中。最后,我们总结了本文的工作并讨论了第五节中的一些未来工作。

Relateded work

近年来,人们提出了一些利用光场图像估计深度的方法。这些方法可以分为两类:传统的基于优化的方法和基于深度学习的方法。在本节中,我们将回顾这两类作品。此外,我们还将总结与我们工作相关的立体匹配方法。

A. Conventional optimization-based method

Wanner和Goldluecke[4]提出了一种结构张量技术来估计EPIs中斜坡的方向。该方法在得到含噪视差图后,通过快速全变分优化过程对粗糙视差图进行细化。虽然边缘像素的视差是准确的,但是在均匀区域内的其他像素可能会被分配不正确的视差值,这在后续的全变分优化过程中,如一致的EPI深度标注和全变分优化等过程中是很难重新标定的。

Lin等人提出了一种利用光场聚焦叠加的两个特征从光场图像中恢复深度图的方法。其中一个特征是,非遮挡像素沿聚焦深度维以聚焦切片为中心呈现对称性。另一种是马尔可夫随机场(MRF)的数据一致性度量,它用于测量由假设视差图合成的焦叠与全聚焦中心图像和直接由光场图像计算得到的焦叠之间的差异。

Wang等人[8]首先通过对光场图像的角斑像素的照片一致性条件进行改进,明确地模拟了遮挡。如果角面片存在遮挡,则可以将角面片分为两个区域,其中只有一个区域符合照片一致性。在角度域(正确的深度与遮挡器)中分隔两个区域的线与在空间域中的遮挡边缘具有相同的方向。该方法通过改变图像的一致性条件和两个区域的均值/方差来估计遮挡感知深度。

Jeon等人利用傅里叶域中的相移定理,设计了一种基于相移的亚像素位移(PSS)光场图像视差估计方法。然后,将不均匀度地图估计问题转化为一个基于亚像素的多视点立体匹配的MRF优化问题。

世纪等人[12]提出了一种深度估计的生成模型,该模型由中心子孔径视图及其对应的视差图完全参数化。这种方法生成的视差图比其他方法得到的视差图更有优势,特别是对于由Lytro相机在真实场景中捕捉到的光场图像。

Zhang等人提出了一种自旋平行四边形算子(SPO),该算子被集成到深度估计框架中,用于局部估计和计算其斜率。旋转平行四边形算子使副四边形窗口的两部分之间的分布距离最大化,从而提取深度信息。该方法结合了水平切片和垂直切片/EPIs中推断的深度信息。它对遮挡、噪声、空间混叠和有限的角度分辨率不敏感。

huang[13]提出了一个经验贝叶斯框架,即鲁棒伪随机场(RPRF),为光场深度推断提供了统计适应性和良好的深度质量。在这项工作中,作者着重于探索MRF推理的内在统计线索。该方法基于隐含软决策先验的模型,应用期望最大化的思想进行模型拟合,并对模型深度进行了强EM估计。该方法能较好地估计场景相关参数,并能快速收敛于深度估计。

所有这些方法都是基于多标签优化从单个光场图像中估计视差图,因为得到的视差图中总是存在明显的噪声/误差。我们的方法也采用这种优化策略来获得最佳视差图,并去除可能的噪声/误差。

B. Deep learning-based methods

hazirbas等人[17]提出了一种自动编码器式卷积神经网络,用于从真实场景光场图像的焦距堆栈估计深度。为了训练所提出的卷积神经网络,作者建立了一个包含大量光场图像和用rgb-d传感器记录的相应注册地面真深度图的数据集。

Heber等人(16)介绍了一个新的U形状自编码器自身深度学习网络,从光场图像中提取深度。该网络以4d光场的3d子集3d-epi体积作为输入数据。网络利用三维卷积层从两个空间尺寸和光场图像的一个方向传播信息。这一方法可以减少大量的人工制品,同时保持清晰的深度不连续。

Alperovich等人[18]提出了一种全卷积的自编码网络来联合解决光场中的视差回归和反射分离问题。该网络利用三维卷积计算垂直和水平三维epis体的整个范围内的特征,以处理复杂的遮挡和反射。这个网络实现了自动编码器路径来重建输入,两个用于漫反射和高光组件的解码器,以及一个用于视差图的独立解码器。网络的自动编解码器路径由非监督学习联合训练,其他解码器路径由监督训练训练。该方法能在强反射条件下恢复可靠的深度。

Guoetal[19][19]提出了一种基于统一学习的技术,利用双目立体线索和单眼聚焦线索进行深度推断。该网络采用一对焦堆作为输入,模拟人的感知。作者构建了三个独立的网络:一个用于从单焦叠加中提取深度的聚焦网,一个用于从焦叠加中获取景深扩展的edofnet,以及一个用于进行立体匹配的立体网。来自edof net的edof图像既可以指导聚焦网深度的细化,又可以为立体网提供输入。然后,这些网络被集成到一个统一的解决方案中,以获得最终的深度图。

基于深度学习的视差估计方法通常是针对从有限数量的合成或真实场景中捕获的光场图像进行训练。由于真实场景的光场图像的地面真值深度图难以获取,因此这些方法主要针对一些虚拟场景进行训练,这些虚拟场景往往比真实场景简单。在处理新场景的光场图像时,这种方法不能生成足够精确的视差图,也不能超过基于优化的方法。

C. Stereo matching methods

立体匹配是计算机视觉领域研究的热点。我们建议读者参考研究[22]的概述。近年来,随着深度学习的迅速发展,采用卷积神经网络[23]-[27]对立体图像进行深度估计的方法也被提出。

Taniaietal[21]提出了一种准确有效的立体匹配方法。该方法利用三维平面标签建立了基于成对MRF的立体模型。该方法利用了最近的两个突破,倾斜patch匹配和基于切线的曲率正则化。倾斜patch匹配是指在图像域中定义一个局部视差平面对每个像素的视差进行过参数化,并对每个像素估计参数化平面的三元组,而不是直接估计其视差。曲率正则化用类似于传统线性和截尾线性模型的成对项表示。因此,该方法可以处理平面以外的光滑表面。提出了一种新的移动方案局部扩展移动,用多个局部α-扩展优化算法[28]来代替对整个图像进行全局和代价高昂的图割优化。局部扩展移动使图形切割优化中的空间传播成为可能。该方法具有效率高、精度高等优点。

我们采用这种方法来估计光场图像对的两个中心子孔径视图的视差图。所得的视差图将作为我们方法的双目深度线索。

3. Our method

该方法以光场图像对为输入,由两个水平排列的光场摄像机或架在架子上移动的光场摄像机捕获。我们方法的概述如下。

  • 首先,分别从单个光场图像的EPIs和输入光场图像对的两个中心子孔径视图中估计初始粗糙视差图。
  • 其次,我们注册了这两种视差图,将它们合并在一起作为生成准确视差图的先验深度线索。
  • 最后,我们通过最小化优化后的视差与初始推断的粗糙视差、输入光场图像与估计光场图像之间的差异来优化目标视差图。

A. Preprocessing for initial depth cues

我们观察到,深度估计方法,如[4],可以获得比同源区域像素更准确的边缘像素视差。相比之下,基于倾斜平面拟合的立体匹配方法[21]可以获得更精确的均匀区域视差。因此,我们采用结构张量技术[4]来获得边缘像素的高置信差。此外,我们使用立体匹配方法[21]从一个光场图像对的两个中心子孔径视图中获得均匀区域像素的可靠视差。然后,我们利用这两种视差图来为输入光场图像对生成更精确的视差图。

L 1 L_1 L1 L 2 L_2 L2表示输入光场图像对。 D ˉ 1 {\bar{D}}_1 Dˉ1 D ˉ 2 {\bar{D}}_2 Dˉ2表示通过方法[4]获得的 L 1 L_1 L1 L 2 L_2 L2的两个中心子孔径视图的清洁视差图。 C 1 C_1 C1 C 2 C_2 C2表示 D ˉ 1 {\bar{D}}_1 Dˉ1 D ˉ 2 {\bar{D}}_2 Dˉ2的相应置信映射。 D ^ 1 {\hat{D}}_1 D^1 D ^ 2 {\hat{D}}_2 D^2表示通过立体匹配方法估计的 L 1 L_1 L1 L 2 L_2 L2的中心子孔径视图的视差图[21]。为了消除不一致/不正确的视差值,我们清理了初始的粗糙视差图。 M 1 M_1 M1 M 2 M_2 M2表示与 D ^ 1 {\hat{D}}_1 D^1 D ^ 2 {\hat{D}}_2 D^2交叉检查后的掩模图,它们表示 D ^ 1 {\hat{D}}_1 D^1 D ^ 2 {\hat{D}}_2 D^2中有效且一致的视差值。此外,我们计算了 L 1 L_1 L1 L 2 L_2 L2两个中心子孔径视图的梯度图,分别表示为 G 1 G_1 G1 G 2 G_2 G2

B. Registration for a light field image pair

我们注册并合并这两种类型的视差图来进行视差估计。由于光场图像的所有子孔径视图都采用聚合(toed-in)立体相机模型[29],并且所提出的光场相机对确保其主轴平行,因此很容易建立两种视差图之间的关系,例如 D ^ 1 {\hat{D}}_1 D^1 D ˉ 1 {\bar{D}}_1 Dˉ1,如下式所示。
在这里插入图片描述
其中b为同一光场图像水平或垂直方向上最近相邻子孔径视图的小基线;B为光场图像对基线,为实验标定的常数参数;其中, d s d_s ds表示光场相机光敏器件上投影子孔径视图相对于子孔径视图光轴的位移,是指定光场图像的一个常数参数。

在这项工作中,我们对lytro illum相机记录的真实场景光场图像采用解码方法[30]。该方法采用并行立体相机模型,即参数 d s d_s ds为零(Eqn. 1)。另一个参数 b B \frac{b}{B} Bb可以通过最小二乘法得到。为了生成虚拟场景光场图像对,我们采用了[29]中描述的toed-in立体相机模型。

一旦确定了这两种视差图之间的关系,就使用 D ^ 1 t {\hat{D}}^t_1 D^1t D ^ 2 t {\hat{D}}^t_2 D^2t来指示 D ^ 1 {\hat{D}}_1 D^1 D ^ 2 {\hat{D}}_2 D^2的缩放视差图,这意味着它们被映射到与输入光场图像对相同的视差范围。

C. Disparity map optimization by adopting a generative modelkendinrnahou

我们将这两类先前推断的视差图作为先验深度线索,定义以下能量函数来合并它们,并将高置信视差值传播到邻近区域。
在这里插入图片描述
其中 D 1 D_1 D1 D 2 D_2 D2是期望的视差图,用我们的方法对两个中心子孔径视图 L 1 ( s c , t c ) L_1(s_c,t_c) L1(sc,tc) L 2 ( s c , t c ) L_2(s_c,t_c) L2(sc,tc)进行优化。 ( s c , t c ) (s_c,t_c) (sc,tc)表示光场图像的中心子孔径视点。 E d e E_{de} Ede , E d s E_{ds} Eds , E d r E_{dr} Edr E d c E_{dc} Edc是为我们的视差图优化设计的能量项,将在本节后面讨论。 λ 1 {\lambda}_1 λ1 λ 2 {\lambda}_2 λ2 λ 3 {\lambda}_3 λ3 λ 4 {\lambda}_4 λ4具有恒定的加权参数。

能量项 E d s E_{ds} Eds E d e E_{de} Ede 用于使视差图 D 1 D_1 D1 D 2 D_2 D2与之前预测的两种视差图相似。这两个能量项定义为:
在这里插入图片描述
其中N§是指p周围的相邻像素点,例如在p周围的一个11×11窗口中。 ω 1 , p q ( ω 2 , p q ) {\omega}_{1,pq}({\omega}_{2,pq}) ω1,pq(ω2,pq)是衡量 L 1 ( L 2 ) L_1(L_2) L1(L2) p 和 q p和q pq周围3×3窗口颜色相似性的加权项,定义如下:
在这里插入图片描述
其中 I 1 = L 1 ( s c , t c ) I_1=L_1(s_c,t_c) I1=L1(sc,tc) σ c 2 {\sigma}^2_c σc2 σ g 2 {\sigma}^2_g σg2分别是整个图像 L 1 ( s c , t c ) L_1(s_c,t_c) L1(sc,tc)的颜色和梯度方差,其设置与之前的模型非常不同[12]。 N ′ ( p ) N'(p) N(p) N ′ ( q ) N'(q) N(q)表示以 p 和 q p和q pq为中心的3x3窗口。 p ′ 和 q ′ p'和q' pq表示 N ′ ( p ) N'(p) N(p) N ′ ( q ) N'(q) N(q)内具有相同局部坐标的相应像素。

用于强制相邻像素的平滑视差变化的正则化项 E d r E_{dr} Edr被定义为:
在这里插入图片描述
我们使用能量项 E d c E_{dc} Edc来加强 D 1 D_1 D1 D 2 D_2 D2之间的相干性,可以定义为:
在这里插入图片描述
其中 p 和 p − D ^ 1 ( p ) p和p-{\hat{D}}_1(p) ppD^1(p)是分别位于两个中心子孔径视图 L 1 ( s c , t c ) L_1(s_c,t_c) L1(sc,tc) L 2 ( s c , t c ) L_2(s_c,t_c) L2(sc,tc)内的对应像素对的坐标。类似地, p 和 p + D ^ 2 ( p ) p和p+{\hat{D}}_2(p) pp+D^2(p)分别是 L 2 ( s c , t c ) L_2(s_c,t_c) L2(sc,tc) L 1 ( s c , t c ) L_1(s_c,t_c) L1(sc,tc)内对应像素对的坐标, M 1 和 M 2 M_1和M_2 M1M2是第iii-a节中为交叉检查的视差图定义的掩模图。

深度估算生成模型: 为了获得高精度的视差图,我们采用了[12]中描述的生成模型的概念,该生成模型仅基于中心子图及其视差图来生成匹配的光场图像。然后,通过最小化估计的光场图像与原始光场图像之间的差异,使我们的方法比仅仅使用目标函数Eqn. 2生成更精确的视差图。

L 1 L_1 L1对应的光场估计图像定义为::
在这里插入图片描述
其中 ( x c , y c ) (x_c,y_c) (xc,yc)表示 L 1 L_1 L1的中央子孔径视图上的像素, d s = s − s c d_s=s−s_c ds=ssc d t = t − t c d_t=t−t_c dt=ttc W W W是一个加权函数,可以将估计的子孔径视图上移位的子像素 L 1 ( s c , t c , x c , y c ) L_1(s_c,t_c,x_c,y_c) L1(sc,tc,xc,yc)的颜色分布到其最近的四个相邻像素上。
在这里插入图片描述
L 2 L_2 L2相对应的估计光场图像 L ~ 2 {\tilde{L}}_2 L~2可以类似地被定义。关于更多细节,我们建议读者参考之前的研究[12]。

然后,通过优化以下能量函数,我们可以最小化估计的光场图像 L ~ 1 {\tilde{L}}_1 L~1 L ~ 2 {\tilde{L}}_2 L~2与输入的光场图像 L 1 L_1 L1 L 2 L_2 L2之间的rgb差:
在这里插入图片描述
最后的目标函数: 因此,我们的视差估计方法的全局目标函数可以定义为:
在这里插入图片描述
采用凸优化L-BFGS-B算法[31]、[32]可以有效地求解该目标函数。

4. Experimental results and discussion

我们的方法是在Matlab中实现的。我们在真实场景和虚拟场景的光场图像上评估了我们的方法。由于目前还没有用于光场图像对处理和评价的数据集,我们通过捕获一些具有挑战性的真实场景光场图像对,合成一些具有挑战性的虚拟场景光场图像,建立了一个数据集。对于使用Blender[33]生成的带有地面真实度差值地图的虚拟场景光场图像对,我们通过在数据集上运行代码,将我们的方法与现有的状态-艺术方法进行了定量比较。对于Lytroiillum相机拍摄的真实场景光场图像[I],我们将我们的方法与现有方法进行了定性比较。虚拟场景光场图像的空间分辨率设置为512x512,真实场景光场图像的空间分辨率设置为625x434。两种光场图像的角分辨率均设为9x9。

在Eqn.2中,虚拟场景光场图像对的常数加权参数设为 λ 1 = 1 0 5 , λ 2 = 1 0 5 , λ 3 = 2 × 1 0 5 , λ 4 = 5 × 1 0 4 λ_1=10^5,λ_2=10^5,λ_3=2×10^5,λ_4=5×10^4 λ1=105λ2=105λ3=2×105λ4=5×104,真实场景光场图像对的常数加权参数设为 λ 1 = 1 0 4 , λ 2 = 1 0 4 , λ 3 = 2 × 1 0 4 , λ 4 = 1 0 4 λ_1=10^4,λ_2=10^4,λ_3=2×10^4,λ_4=10^4 λ1=104λ2=104λ3=2×104λ4=104。两种光场图像参数设置的差异可以解释如下。由于真实场景光场图像在捕获和解码过程中总会引入一些噪声,因此由真实场景光场图像对估计出的初始粗糙视差图比由合成光场图像推断出的视差图的可信度要低。我们的方法处理虚拟场景光场图像对的时间开销约为15分钟。而处理真实场景光场图像对的时间开销约为20分钟。

A. Quantitative evaluation

图1-4所示的光场图像的相机参数如表1所示。对于每个光场图像对 ( L 1 , L 2 ) (L_1, L_2) (L1,L2),我们显示了 L 1 L_1 L1的中心子孔径视图和相应的地面真视差图。为了证明我们的方法的有效性,我们将我们的方法得到的视差图与其他方法得到的视差图进行了比较[4]、[7]、[8]、[11]、[13]、[21]。
在这里插入图片描述
以图1为例。这个例子对视差估计很有挑战性,因为场景中有很多薄结构。图1a从上到下显示了 L 1 L_1 L1的地面真视差图和中心子孔径图。在图1 b,图中显示灰度差异映射估计的两个中心子孔径视图输入光场图像对采用最先进的立体匹配方法[21],和底部图中显示颜色的剩余地图,代表真实差异映射的绝对值减去差距地图。
在这里插入图片描述
同样,在图1c,图1d, 图1e,图1f,图1g和图1h,从上到下,第一行显示的数据差距地图估计从单一光场图像 L 1 L_1 L1通过分别采用方法[4],[7],[8],[11],[13],[21]和我们的方法,在第二行数据显示颜色剩余地图生成相同的方式在底部排图1b。在残差图中,深蓝色表示估计的视差与ground-truth视差一致。相比之下,深红色表示估计的视差与地面真差不一致,这意味着估计的视差与地面真差之间存在较大的差距。可见,与其它方法相比,本方法产生的视差图明显误差较小,能很好地处理自行车和灯杆的复杂薄结构,得到更精确的视差图。
在这里插入图片描述
在这里插入图片描述
图2和图3的情况与图1相似。在这两个例子中,我们的方法优于其他方法。在图2中,与其他方法得到的视差图相比,我们的方法得到的视差图误差较小。在这个例子中,我们的方法比其他任何方法都能更好地恢复大的无纹理背景和复杂的船体薄结构的视差。在图3中,虽然其他一些方法[4],[8]也可以产生较好的视差图,误差较小,但是我们的方法得到了更优更有利的视差图。该方法得到的视差图没有明显的误差。相比之下,其他方法生成的视差图存在一些明显的误差。在图4中,我们的方法和[7]、[13]、[21]方法得到的视差图比[4]、[8]、[11]方法得到的视差图好很多。我们的方法可与本例中最新的、最先进的方法[7]、[13]、[21]进行比较。

我们还将我们的方法与其他最先进的方法在误差统计方面进行了比较。图5为图1- 4所示视差图的误差统计量。图5a为图1所示的视差图绝对误差统计图。图5b是图5a的一个子图,将其右下角放大,绝对误差从0.1到0.3。显然,我们的方法比其他方法具有更小的误差,其比值稳定收敛于零。图5c、图5d(图2)、图5e、图5f(图3)、图5g、图5h(图4)的结果与图5a、图5b的误差统计结果相似,说明了本文方法的有效性和稳定性。
在这里插入图片描述
此外,我们在不同的目标函数和初始深度线索条件下对我们的方法进行了评估。图6和图7中使用的光场图像对与图1和图4中使用的光场图像对相同。这些光场图像对的中心子孔径视图如图12d和图12e所示。
在这里插入图片描述
在这里插入图片描述
图6a显示了我们的方法得到的视差图,它没有采用生成模型(Eqn. 14中定义)及其彩色残差图与地面真视差图的比较。图6b示出了仅利用由方法[4]从epis估计的初始深度线索的生成模型生成的视差图。类似地,图6c示出了仅利用通过采用立体匹配方法从输入光场图像对的两个中心子孔径视图估计的初始视差图的生成模型优化的视差图[21]。图6d显示了我们的方法的法向视差图,同时利用了生成模型和两种初始深度线索。图6d所示的视差图比其他列所示的视差图要好得多。此外,从实验结果可以看出,可以保证输入光场图像对的两个中心子孔径视差图之间的一致性。
在这里插入图片描述
我们在图7中展示了另一个例子。室内场景主要由一些倾斜的平面组成。仅利用双目深度线索的生成模型可以产生如图7c所示的好的视差图。我们的方法在图7d所示的标准视差图与图7c所示的视差图是可比的,并且比图7a和图7b所示的视差图要好得多。

B. Qualitative evaluation

从真实场景中捕获的光场图像的内容通常比从虚拟场景中生成的光场图像的内容更为复杂。另外,由于捕获步骤中复杂的光照条件、解码步骤中引入的噪声和失真,使得真实场景光场图像的深度估计比虚拟场景光场图像的深度估计更具挑战性。表2中列出了这些光场图像对(如图8所示)的校准相机参数。
在这里插入图片描述
图8示出了从各种具有挑战性的真实场景捕获的一组光场图像对。对于图8所示的每个场景,从左到右,我们示出采用方法[4]从两个中心子孔径视图推断的光场图像 L 1 L_1 L1的中心子孔径视图和相应的视差图,以及从单个光场估计的视差图图像 L 1 L_1 L1分别采用[7]、[8]、[11]、[13]、[21]和我们的方法。由于这组光场图像没有地实视差图,我们只能定性地将我们的方法得到的视差图与其他方法估计的视差图进行比较。尽管一些现有方法可能产生有利差异地图的一些场景,比如第一行图8 b通过[21],第四行和第六行图8 d由[8]和图8 f[7]估计,这些方法不能产生有利差异地图的场景。相比之下,我们的方法对所有场景生成了更好、更合理的视差图,如图8h所示。
在这里插入图片描述
在不同的目标函数和初始深度线索条件下,我们也对真实场景中的光场图像对进行了评估,评估中使用的光场图像对与第一行、第四行和最后一行中使用的光场图像对相同图8所示。这些光场图像对的中心子孔径视图如图12a、12b和12c所示。在图9中,如图9d所示,用我们的方法获得的正常视差图比用我们的方法获得的视差图好得多,而不采用生成模型或只使用一种类型的初始深度提示。
在这里插入图片描述
在这里插入图片描述
在图10中,我们的方法优化得到的法向视差图(如图10d所示)比其他条件下得到的法向视差图要好得多。在缩放本例中所示的图像时,我们可以发现我们的方法在没有使用生成模型的情况下生成的视差图(图10a)中存在很多小的噪声/误差。图10b和图10c是仅使用一种类型的初始深度提示的生成模型优化的视差图。这些视差图非常平滑,并且包含较少的噪声。相比之下,我们的方法的正常视差图(图10d)比图10a、10b和10c所示的更精确和平滑。我们观察到,在利用从epis推断的深度线索时。我们的方法可以很清楚地还原出进一步背景上的分支的视差,如图10a、10b和10c所示。相反,虽然我们的方法仅利用立体匹配方法[21]估计的深度提示,但它不能恢复如此小细节的视差,如图10c所示。
在这里插入图片描述
同样,在图11中,我们的方法在没有生成模型的情况下生成的视差图(图11a)对背景左侧的分支存在一些明显的误差。图11b所示的视差图噪声较大,且不够平滑。图11c所示的视差图包含了太多的误差。如图11d所示,该方法的法向视差图比其他条件下的法向视差图更准确、平滑。
在这里插入图片描述

V. Conclusion and future work

本文提出了一种基于光场图像对的深度估计方法。我们的方法利用了从epis和双目立体视觉中分别推断出的两种重要深度线索,即光场图像对的两个中心子孔径视图。为了优化两个中心子孔径视图的视差图,我们建立了一个包含两部分的目标函数。能量函数的一部分试图将这两种视差图直接合并,并在视差灰度空间中对两个中心子孔径视图的视差图进行优化。能量函数的另一部分是在rgb颜色空间中采用一种改进的生成模型来最小化输入光场图像和估计光场图像之间的差异,从而优化所需的视差图。采用凸优化技术可以有效地求解目标函数。在真实和虚拟场景上进行的大量实验证明了该方法的有效性。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值