Generative Occupancy Fields for 3D Surface-Aware Image Synthesis论文笔记

Motivation

生成辐射场(generative radiance fields,GRAFs)中的累积渲染过程使这些生成模型的训练变得更容易,因为梯度分布在整个体积上,但会导致形成扩散的物体表面。与辐射场相比,占用表示可以固有地确保确定的表面。然而,如果我们直接将占用表示应用于生成模型,在训练过程中,它们只会接收到位于物体表面的稀疏梯度,最终会遇到收敛问题。生成占用域(Generative Occupancy Fields)是一种基于生成辐射场的新模型,可以在不影响训练收敛的情况下学习紧凑的物体表面。在实践中,在GOF训练时,从辐射场开始到占用表示过渡,是通过在渲染过程中逐渐缩小采样区域来实现的,从整个体积到表面周围的最小邻近区域。

Introduction

由于梯度梯度,具有占用表现的生成模型会在训练过程中遇到严重的收敛问题。为了统一NeRF和占用网络在3d感知图像合成中的优点,GOF采用了GRAFs的设计,同时利用了从累积渲染到只有表面点渲染的非平凡过渡,即从辐射场开始,然后向占用表示发展。具体来说,GOF会将累积渲染过程中的alpha值重新解释为占用值,以便通过寻根来定位学习到的曲面。随后,它可以通过在渲染过程中逐渐缩小采样区域,从整个体积缩小到曲面周围的最小邻近区域,自然地促进学习曲面的紧凑性。

方法对比

我们的方法GOF的累积渲染权重比之前的方法(如pi-GAN)更专注于表面(y轴),这表明我们预测的体积密度更集中于物体表面。

 由于扩散的体积密度,之前的方法pi-GAN捕获比较混乱的表面法线和物体形状。相比之下,我们的方法预测的更集中的表面密度确保了紧凑和光滑的物体表面,从而在推理期间实现高质量的表面渲染。

相关工作

用于三维表示的神经隐式函数。神经辐射场(NeRF)由于其在新颖的视图合成的引人注目的结果广受关注。它利用MLP网络来近似静态3D场景的辐射场。通过学习重建现有视图,它能够从2D监控中捕获3D几何细节。随后提出了一系列的改进方法,包括利用空间稀疏性来降低计算复杂度,优化渲染过程以提高其效率,采用反射率分解来增强其建模能力。也有一些工作利用神经隐函数的可微渲染进行3D重建。SDFDiff依靠8个相邻SDF样本在曲面交点附近的插值得到导数,Atzmon等利用样本网络将样本的位置与网络参数联系起来,从而提高了泛化能力。更有趣的是,DVR和IDR通过采用占用表示,表明体积绘制具有内在可微性,因此可以直接用推导的分析梯度优化网络参数。与上述方法不同,GOF是一种3D感知图像合成的生成模型,可以从一组具有未知相机姿势的2D图像中学习3D表示。

生成式3D感知图像合成。为了合成三维一致的图像,研究人员对如何将三维表示结合到经典GAN模型中进行了大量的探索。有些方法直接从三维数据中学习,但三维监督的要求限制了其实用性。因此,更有吸引力的替代方法是以无监督的方式从无姿态的2D图像中学习。之前沿着这条研究路线的工作采用体素作为它们的中间3D表示,实现了对合成图像姿态的显式控制。受辐射场优于体素的表现能力的启发,最近的尝试用神经辐射场取代体素,以提高合成的3D一致性图像的保真度。然而生成辐射场(GRAFs)倾向于预测扩散的物体表面,这阻碍了它在各种下游任务中的适用性。

Method

概述:在潜在代码z ~ p_{z}的条件下,我们的生成器gθ可以生成一个3D辐射场R,从中我们可以用采样的相机姿态ξ∼pξ呈现一个逼真的图像,同时恢复光滑和紧凑的物体表面

神经辐射场

NeRF以每个点的体积密度和依赖于视图的RGB颜色表示静态场景。

给定空间中的一个三维点x∈\mathbb{R}^{3}和一个视图方向d∈\mathbb{R}^{3}, NeRF利用多层感知器(MLP)来预测体积密度σ(x)∈R,发射颜色c(x, d)∈\mathbb{R}^{3}。为绘制场景的新视角,NeRF利用经典的体绘制技术来估计每个像素的颜色。首先,沿着摄像机光线r(t) = o + td,在近、远边界[t_{n}, t_{f}]内采样的N个点{x_{i} = o + t_{i}d}的彩色密度累积,其中o代表摄像机原点。然后通过alpha合成来估计综合颜色,如下所示

其中δi = |x_{i+1}x_{i}|是相邻点之间的距离。公式是自然可微的,可以通过现有视图的重构误差直接优化NeRF。

基于生成占用场的三维表面感知图像合成

GOF合并一个额外的潜在代码z ∼ p_{z}到NeRF

然而,根据式(2)直接训练GOF无法保持之前的方法中报道的表面致密性。由于训练时看到的姿态范围有限,鉴别器不太有动力进一步将图1 (a)中提到的颜色权重w_{i} = T_{i}(1−exp(−\sigma_{\theta }(x_{i}, z)\delta _{i})集中在精确的物体表面。在GOF中,我们提出了一种训练时间操作,以促进颜色权值的集中。其基本思想是在累积渲染过程中将样本区域从整个体积逐渐缩小到表面周围的一个狭窄区间,从而强制颜色权值不断向精确的表面移动。

 为了实现所提出的训练时间收缩过程,GOF需要通过对预测密度\sigma_{\theta }(x, z)设置阈值来定位表面,假设表面上的点具有最大的密度。然而,在生成辐射场中预测的密度值可能在0到50之间,因此在整个训练期间很难确定有效的阈值τ。在Eq.(2)所示的累积渲染过程中,我们发现用于数值稳定性的中间alpha值固有地落在一个固定的值范围内

 更重要的是,这些α值\sigma_{\theta }(x, z)在占用空间中的点接近1,而在空闲空间中的点接近0,使它们在数量和语义上都与占用值相似。因此我们通过直接预测alpha值\alpha_{\theta }(x, z)而不是体积密度\sigma_{\theta }(x, z)来重新定义生成辐射场。由于GOF估计的是alpha值而不是体积密度,因此公式(2)中以潜在代码z为条件的原始体绘制过程被重新表述为

其中αθ(xi, z)的取值范围用sigmoid函数约束。为了通过寻根法定位曲面,对于特定的射线r(t) = o+td,我们将均匀地采样M个点{x_k = o+t_kd; K = 1,…, M},将整个体积[t_n, t_f]划分为M个等间距的容器。得到对应的α值{\alpha_{\theta }(x_k, z); K = 1,…, M}通过查询生成器g_{\theta},曲面S位于第k^{S}-th bin中,其中\alpha_{\theta }第一次从自由空间(\alpha_{\theta } < τ)转变为占用空间(\alpha_{\theta } < τ):

 τ是一个预定义的阈值。在实践中,我们根据经验将τ设为0.5。为了更精确地找到曲面点x_s = o + t_sd,我们进一步应用上述切割方法迭代m_s次,得到一个细粒度的容器 [x_{k^{S}}, x_{k^{S+1}}]。其中,M个采样点仅用于寻根。因此,它们不需要在实现中计算梯度。

具体来说,在每个训练步骤中对式(4)采样N个点时,我们只在曲面附近的区域内采样[t_s−∆,t_s +∆]

 提出的收缩过程如图。∆为采样间隔,在开始时设置为\Delta _{init} = (t_ft_n)/2,它将以指数衰减速率γ单调减小,直到下降到预先定义的最小值\Delta_{min}。如图2所示,在训练开始时,式(4)采样的点将覆盖整个体积,梯度分散,有利于GOF的收敛。随着训练的进行,预测曲面会越来越精确,这是采样区域逐渐细化的结果,反过来也使得上述收缩操作有效。

在推理过程中,为了合成随机摄像机位ξ∼pξ下的图像,生成器gθ将在最小区域[ts−∆min, ts +∆min]内的每条射线上获取截断的潜在代码z和样本N个点{xi},用于如式(4)所示的渲染。

损失函数

使用GAN损失,其中GOF通过从数据集相关分布pξ中随机采样相机姿态ξ值并根据式(4)进行渲染来合成假图像。将I表示为来自数据分布p_{D}的真实图像,非饱和GAN损耗可以描述如下

仅靠L_{origin}不足以指导训练,这可能会导致带有烟雾状伪影的混乱图像。因此,加入了两个正则化来减少伪影并进一步平滑学习的表面。 

第一个正则化是表面法向光滑性的先验,在GOF中,此法向先验仅用于曲面点x_{s}∈S,以获得自然光滑的曲面

其中\epsilon是一个小的随机三维扰动,n_{\theta }表示法向量,n_{\theta }(x, z) =∇x\alpha_{\theta }(x, z)/||▽x\alpha_{\theta }(x, z)||2

由于在GOF中预测的alpha值可以被视为占用值,理想情况下,它们的熵应该为0,以便\alpha_{\theta }(x, z)值对于已占用空间中的点等于1,而对于空闲空间中的点等于0。因此,我们应用第二不透明度正则化,旨在减少预测alpha值的熵

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值