73、DisCoScene: Spatially Disentangled Generative Radiance Fields for Controllable 3D-aware Scene Syn

简介

官网:https://snap-research.github.io/discoscene/

DisCoScene是一种用于高质量和可控场景合成的3d感知生成模型,该方法的关键成分是一个非常抽象的对象级表示(即没有语义标注的3D边界框)作为场景布局先验,易于获得,通用于描述各种场景内容,但对解缠对象和背景有信息量。还可以作为一个直观的用户控制场景编辑。基于这样的先验,所提出的模型通过仅在具有全局-局部辨别能力的2D图像上学习,在空间上将整个场景解纠缠为以物体为中心的生成辐射场。该模型获得了单个物体的生成保真度和编辑灵活性,同时能够有效地将物体和背景组合成一个完整的场景

实现流程

在这里插入图片描述
在先验布局的条件下,所提出的空间解缠生成辐射场生成了单个物体和背景,高效的神经渲染管道用体渲染器将场景合成到低分辨率特征图,用上采样器将上采样合成到最终的高分辨率图像。

训练过程中,提出了全局-局部判别,将场景判别器应用于整个图像,将目标判别器应用于裁剪的目标块

用户可以操作布局以控制对象级别特定场景的生成

Abstract Layout Prior

选择以一种非常简化的方式表示场景布局—— 一组边界框 B = { B i ∣ i ∈ [ 1 , N ] } B= \{ B_i | i \in [1,N]\} B={Bii[1,N]},没有类别注释,其中 N 对场景中的对象进行计数。每个边界框都定义了9个参数,包括旋转 a i a_i ai ,平移 t i t_i ti 和缩放 s i s_i si
在这里插入图片描述
a i a_i ai 包含3个欧拉角,它们更容易转换为旋转矩阵 R i R_i Ri,边界框 B i B_i Bi 可以从标准边界框 C 转换,即坐标原点处的单位立方体
在这里插入图片描述
b i b_i bi 表示 B i B_i Bi 和 diag(·) 的变换,得到一个由 s i s_i si 元素组成的对角矩阵。抽象布局更易于收集和编辑,允许灵活的交互式用户控制

Spatially Disentangled Radiance Fields

Object Representation

用潜代码 z 来条件NeRF,从而产生其生成形式,G(x, v, z)→(c, σ),以实现 3d 感知的物体合成

由于使用布局作为内部表示,它自然地将整个场景分解为几个对象。可以利用多个单独的生成NeRFs来对不同的对象进行建模,但它很容易导致模型数量过多和训练效率低下。为缓解这个问题,在标准空间中推断生成对象的辐射场,以允许对象之间共享权重
在这里插入图片描述
γ(·) 是将输入转换为傅里叶特征的位置编码函数,物体生成器 G o b j ( ⋅ ) G_{obj}(·) Gobj() 独立推断每个物体,从而产生空间解缠的生成辐射场

G o b j ( ⋅ ) G_{obj}(·) Gobj()不以观看方向 v 为条件,因为神经渲染器的上采样器可以学习与之前工作类似的视图依赖效果

Spatial Condition

尽管使用对象边界框作为先验,但无论其空间配置如何,它们的潜在仍然被随机采样,导致不逻辑的安排。为了合成场景图像并以适当的语义推断物体辐射场,将每个物体的位置和尺度作为生成器编码更一致的内在属性(即形状和类别)的条件。只需修改Eq.(4),将潜在代码与目标位置和尺度的傅里叶特征连接起来
在这里插入图片描述
语义线索以无监督的方式注入到布局中,无需显式的类别标注

Background Representation

背景辐射场仅在全局空间中进行评估。背景编码了大量的高频信号,加入了视点方向 v,以帮助背景生成器 G b g ( ⋅ ) G_{bg}(·) Gbg() 能够学习到这些细节
在这里插入图片描述

Efficient Rendering Pipeline

使用空间解缠辐射场来表示场景,但是,在渲染多个辐射场时,点采样解决方案可能会导致令人庞大的计算开销,考虑到物体辐射场的独立性,通过只关注边界框内的有效点,可以实现更高效的渲染

Ray-Box Intersection in Canonical Space

对于每个对象,射线上的点可以在自适应深度而不是固定深度进行采样,因为边界框提供了关于对象位置的线索。

将分辨率 S 下的投射光线 R = { r j ∣ j ∈ [ 1 , S 2 ] } R = \{r_j | j ∈[1,S^2]\} R={rjj[1,S2]}转换为正则体坐标系,然后,应用ray - aabb (axis-aligned bounding box)求交算法计算射线 r j r_j rj 与 第l个 box B l B_l Bl 相交段的自适应远近深度 ( d j , l , n , d j , l , f ) (d_{j,l,n}, d_{j,l,f}) (dj,l,n,dj,l,f),然后,按照 [ d j , l , n , d j , l , f ] [d_{j,l,n}, d_{j,l,f}] [dj,l,n,dj,l,f] 间隔等距离对 N d N_d Nd 个点进行采样。维护了一个大小为 N × S 2 N × S^2 N×S2 的相交矩阵 M,它的元素表示光线是否与盒子相交,使用 M,只选择有效点进行推断,可以大大降低渲染成本

Background Point Sampling

根据不同的数据集采用不同的背景采样策略,对室内场景中的有界背景进行固定深度采样,并继承了对复杂和无界室外场景的nerf++的逆参数化,在逆深度范围内均匀采样背景点

Composition and Volume Rendering

对象总是被假定在背景的前面,对象和背景可以先独立渲染,然后再合成,与 n j ( n j ≥ 1 ) n_j (n_j≥1) nj(nj1) 盒相交的射线 r j r_j rj,其采样点 X j = { X j , k ∣ k ∈ [ 1 , n j N d ] } X_j = \{X_j,k | k∈ [1,n_jN_d]\} Xj={Xj,kk[1,njNd]} 可以很容易地从深度范围和相交矩阵 m 中得到。由于渲染需要考虑物体间的遮挡,将点 X 按深度排序,得到一个有序的点集 X j s = { X j , s k ∣ s k ∈ [ 1 , n j N d ] , d j , s k ≤ d j , s k + 1 } X^s_j = \{X_{j,s_k} |s_k∈[1,n_jN_d], d_{j,s_k}≤d_{j,s_{k+1}} \} Xjs={Xj,sksk[1,njNd]dj,skdj,sk+1},其中 d j , s k d_{j,s_k} dj,sk 表示点 X j , s k X_{j,s_k} Xj,sk 的深度,得到结果颜色为 c ( x j , s k ) c(x_{j,s_k}) c(xj,sk),密度为 σ ( x j , s k ) σ(x_{j,s_k}) σ(xj,sk)
在这里插入图片描述
对于任何不与盒子相交的光线,其颜色和密度分别设置为 0 和 −∞
在这里插入图片描述
背景点是固定深度采样,直接采用式(6)在全局空间评估背景点,无需排序。背景图 N 也可以通过类似于Eq.(7)的体绘制得到。最后通过从Eq.(9)中提取 α \alpha α,将 F 和 N 混合到最终图像 I n I_n In
在这里插入图片描述
渲染管道有效地合成了多个辐射场,但在渲染高分辨率图像时,性能仍然很慢,因此,以较小的分辨率渲染一个高维特征映射,而不是三通道颜色,然后是一个类似 stylegan2 的架构,将特征映射上采样到目标分辨率

Local & Global Discrimination

之前对 3d 感知场景合成的尝试只采用场景级判别器来评价渲染的场景和真实捕捉。然而,这种场景判别器更注重整个场景的全局一致性,弱化了对个体目标的监督。考虑到每个物体,特别是远离相机的物体,占据了渲染帧的一小部分,场景鉴别器对其辐射场提供了弱的学习信号,导致训练不足和物体质量差。此外,场景鉴别器在解缠物体和背景方面只显示出最小的能力,使背景生成器 G b g G_{bg} Gbg 很容易过拟合整个场景

添加一个额外的目标鉴别器来进行局部鉴别,从而产生更好的目标级监督

3D布局 B i B_i Bi 在空间上解缠了不同的物体,将它们投影到2D空间作为 B i 2 D B^{2D}_i Bi2D ,以从经过简单裁剪的合成和真实场景图像中提取物体补丁 P I = { P I ∣ P I = c r o p ( I , B i 2 D ) } P_I = \{P_I | P_I = crop(I, B^{2D}_i)\} PI={PIPI=crop(I,Bi2D)}

目标块在被缩放到统一大小后被馈送到目标鉴别器。它极大地帮助合成逼真的物体,并有利于物体和背景之间的解缠

Training and Inference

整个生成过程被描述为 I f = G ( B , Z , ξ ) I_f = G(B, Z, ξ) If=G(B,Zξ),其中,发生器G(·) 接收一个布局 B,一个从分布 N(0,1) 中独立采样以控制目标的潜码集 Z,以及一个从先验分布 p ξ p_ξ pξ 中采样的摄像机姿态 ξ 以合成图像 I f I_f If。在训练过程中,随机采样 B、Z、ξ,并从数据集中采样真实图像 I r I_r Ir。除生成器外,利用场景鉴别器 D s ( ⋅ ) D_s(·) Ds() 保证绘制的全局一致性,利用物体鉴别器 D o b j ( ⋅ ) D_{obj}(·) Dobj() 对单个物体进行局部鉴别。生成器和鉴别器被联合训练为:
在这里插入图片描述
其中 f (t) = log(1 + exp(t)) 是 softplus 函数, P I r P_{I_r} PIr P I f P_{I_f} PIf 分别是合成图像 I f I_f If 和真实图像 I r I_r Ir 提取的目标块。 λ 1 λ_1 λ1 表示目标鉴别器的损失权重。公式(13)中的最后两项是两个判别器的梯度惩罚正则项, λ 2 λ_2 λ2 λ 3 λ_3 λ3 表示它们的权重。推理。除了高质量的场景生成,所提出方法还通过操作布局自然地支持对象编辑。

在小分辨率下移动光线可能会导致走样,特别是在移动对象时。采用超采样抗混叠(SSAA)算法在临时较高分辨率(128)下进行射线行进,在上采样之前先将特征图降采样到原始分辨率。该策略仅用于目标合成,并且在推理过程中不改变背景分辨率。

对象编辑

在这里插入图片描述

Rearranging Objects

可以变换边界框 B 来重新排列(旋转和平移)场景中的对象,而不影响它们的外观。CLEVR中的变换形状,3D-FRONT中的家具和WAYMO中的汽车都显示出一致的结果。特别是,CLEVR中的旋转对称形状(即球体和圆柱体)显示出很小的变化,表明所需的多视图一致性。模型可以正确地处理相互遮挡。

Removing and Cloning Objects

用户可以通过删除或克隆边界框来更新布局。即使没有在任何纯背景上进行训练,包括WAYMO的具有挑战性的数据集,也可以无缝地删除背景真实修复的对象。通过将盒子复制和粘贴到布局中的新位置,也自然支持对象克隆。

Restyling Objects

虽然外观和形状不是由潜代码显式建模的,但可以重用编码的层次知识来执行对象重造型,任意采样潜代码并在不同的层上进行风格混合,以实现对外观和形状的独立控制。

Camera Movement

也允许显式的相机控制。即使对于在非常有限的相机范围上训练的CLEVR,也可以将相机旋转到极端的侧视图。该模型在3d前端旋转相机时也产生了一致的结果

实验细节

使用来自 StyleGAN2 的映射网络的相同架构和参数。对于对象生成器 G o b j ( ⋅ ) G_{obj}(·) Gobj() 和背景生成器 G b g ( ⋅ ) G_{bg}(·) Gbg(),分别使用8和4个调制的全连接层(ModFCs),具有256和128通道。在64 × 64上执行光线投射,并用neural renderer将特征图渲染为图像。为了获得更好的图像质量和多视角一致性,采用PG-GAN 的渐进式训练策略。鉴别器 D s ( ⋅ ) D_s(·) Ds() D o b j ( ⋅ ) D_{obj}(·) Dobj() 都共享StyleGAN2的类似架构,但只有一半通道。实际上, D o b j ( ⋅ ) D_{obj}(·) Dobj() 在WAYMO上的分辨率总是1/2,在CLEVR和Ds的3d前端上的分辨率总是1/4。所有模型都是在8× V100/A100 gpu上训练的,batch大小为64。 λ 1 λ_1 λ1设置为1以平衡物体和场景鉴别器。 λ 2 λ_2 λ2 λ 3 λ_3 λ3 设置为1,以保持训练的稳定性。除非指定,否则其他超参数与StyleGAN2相同。
在这里插入图片描述

Limitations and Future Work

模型需要抽象布局作为输入。对于真实的数据集,需要单目3D物体检测器来推断伪布局。虽然现有方法试图以端到端的方式学习布局,但很难泛化到由多个物体组成的复杂场景。因此,探索复杂场景的3D布局估计并与端到端方法结合将是很有趣的。此外,尽管与现有的3d感知场景生成器相比有了显着改进,但由于模型容量有限,在全球空间中学习街景仍然具有挑战性。大规模NeRFs可能是一种有效的解决方案。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值