【读论文】Putting NeRF on a Diet: Semantically Consistent Few-Shot View Synthesis

第一篇博客 第八周考完托福之后读的论文


摘要部分refinery

①引入了一种辅助的语义一致性loss,允许我们从任意的姿势来监督DietNeRF。
②DietNeRF在单个场景上进行训练,从相同的姿态正确地渲染给定的输入视图,以及跨不同的随机姿态匹配高级语义属性。
③使用一个预先训练过的视觉编码器来提取这些语义。在实验中,DietNeRF在多视图数据集上预先训练时,可以用一个观察到的图像呈现新视图,并产生完全未观察到的区域的合理完成。


一、introduction refinery

1、正文

我们在捕获高级场景属性的特征空间中计算语义一致性损失,而不是在像素空间中。我们使用CLIP视觉转换器提取渲染的语义表示,然后最大化与地面真实视图的表示的相似性。我们使用了由单视图二维图像编码器学习到的关于场景语义的先验知识来约束一个三维表示

NeRF是每个场景估计的,不能从其他图像和物体获得的先验知识中获益。由于缺乏先验知识,需要用大量的输入视图来高质量地重建一个给定的场景。**核心问题是,先前基于渲染损失的三维重建系统只在已知姿态下进行监督,因此当观察到少量姿态时,它们会过拟合。**通过简化体系结构来正则化NeRF可以避免最糟糕的工件,但要以细粒度的细节为代价。

当场景重建问题不充分确定时,需要先验知识。当一个物体的区域从未被观察到时,三维重建系统就会苦苦挣扎。当以明显不同的姿态呈现一个对象时,这尤其成问题。而当渲染具有极端基线变化的场景时,训练期间未观察到的区域变得可见。一个视图合成系统应该产生看似合理的缺失细节来填补空白。即使是一个正则化的NeRF,也会由于缺乏先验知识而学习到对看不见的区域的不良外推

对象在它们的视图之间共享高级语义属性。图像识别模型学习提取许多这样的高级语义特征,包括对象身份。

我们将在高度多样化的二维单视图图像数据上学习到的预先训练过的图像编码器的先验知识转移到视图合成问题上。包含CLIP和ImageNet编码器。

我们提出了DietNeRF,一种基于NeRF的神经场景表示方法,它只能从几张照片中估计出来,并且可以生成未观测区域的视图。除了最小化NeRF在像素空间中已知姿态下的均方误差损失外,DietNeRF还会惩罚语义一致性损失。这种损失与CLIP的视觉变压器在地面真实图像和不同姿态的渲染图像之间的最终激活相匹配,使我们能够监督任意姿态的辐射场。

2、图及解释

A B 8个视图 C 简化NeRF,8个视图 D 简化NeRF,14个视图
图从左至右:A 100个视图 B 8个视图 C 简化NeRF,8个视图 D 简化NeRF,14个视图

A:当我们从均匀采样的姿态对一个物体进行100次观测时,NeRF估计了一个详细和准确的表示,允许纯粹从多视图一致性进行高质量的视图合成。

B:只有8个视图,同样的NeRF将物体放置在训练摄像机的近场中产生了过拟合,导致物体在训练摄像机附近的姿势处错位并在新姿势处退化。

C:当NeRF被正则化、简化、调整和手动重新初始化时,NeRF可以收敛,但不再能捕捉到许多细节。

D:如果没有关于类似物体的先验知识,单场景视图合成似乎无法完成未被观察到的区域,比如从右边看到的物体的左侧。

在这项工作中,我们发现这些失败的发生是因为NeRF只从稀疏训练姿态监督。


二、NeRF背景refinery

多光函数,或光场,是一个五维函数,描述光从体积的每个方向辐射,如有界场景。虽然由于输入的维数,在高分辨率下明确存储或估计多光函数是不切实际的,但神经辐射场[25]使用连续的神经网络,如多层感知器(MLP)。

神经辐射场(NeRF)模型是一个空间位置x =(x,y,z)和观察方向(θ,ϕ)的五维函数fθ(x,d)=(c,σ),用三维单位向量d表示。NeRF从这些输入中预测RGB颜色c和差分体积密度σ。为了促进视图的一致性,体积密度只依赖于x,而颜色也依赖于观看方向d来捕捉视点依赖的效果,如镜面反射。在任何位置渲染的图像,根据体积渲染,通过根据观察者投射的光线整合颜色,:

在这里插入图片描述
其中,来自相机原点o的光线遵循路径r (t) =或+ td,而透射率T (t) =输出−Rttnσ(r(s))ds通过射线从图像平面在tn处传播到+通畅的概率来加权亮度。为了近似积分,NeRF采用分层采样算法,沿着每条射线选择物体表面附近的函数评价点。NeRF分别估计了两个mlp,一个粗网络和一个细网络,并使用粗网络引导采样沿着射线进行,以更准确地估计(1)。这些网络在每个场景上从头开始进行训练,从不同的角度得到数十到数百张照片。

三、NeRF在少样本合成

像NeRF这样的系统在个别场景上进行训练,特别是在没有从类似场景中获得的先验知识的情况下苦苦挣扎。有如下几个问题:

1、过拟合

辐射场可以重复采样训练图像和姿态(I,pi),通过体积积分(1)渲染相同姿态的图像Iˆpi,然后最小化图像之间的均方误差(MSE),这应该按像素方向对齐。

在这里插入图片描述

在实践中,NeRF在所有训练图像中采样更小批的射线,以避免在训练过程中渲染完整图像的计算费用。

给定从训练摄像机投射的下采样射线,NeRF最小化:

在这里插入图片描述

有许多样本,Lmse向fθ密集地提供训练信号,不会过拟合。相反,MLP恢复了精确的纹理和占用率,从而允许对新的视图进行插值(图A)。

不幸的是,这种高频表征容量使得NeRF在只有少样本时过拟合。Lmse可以通过将训练视图Iˆp的重建图像靠近摄像机来最小化。从根本上说,多光函数表示存在近场模糊的问题,远处的每个摄像机都能观察到,但是在这种情况下,最优的场景表示是未充分确定的。简并解也可以利用辐射场的视图依赖性。如图B显示了虽然从训练图像附近的姿势渲染的视图具有合理的纹理,但它是不正确的倾斜,并有模糊伪影。由于几何图形没有得到正确的估计,一个遥远的视图几乎不包含任何正确的信息。高不透明度的区域会阻塞照相机。没有任何附近相机的监督,不透明度对随机初始化很敏感。

2、正则化修复了几何图形,但影响了细节

①通过正则化NeRF可以避免高频不透明度和快速变化的颜色。
②我们通过去除分层采样和只学习一个MLP,并减少输入层中的最大频率位置嵌入来简化NeRF架构。这使得NeRF偏向于更低频率的解决方案,比如将内容放置在场景中心离训练摄像机更远的地方。
③还可以通过降低学习速率来提高初始收敛性,以及在渲染退化时手动重启训练来解决一些少镜头优化的挑战。而这会使细节丢失。

3、没有先验知识就概括不到看不见的点

由于NeRF是从每个场景从头开始估计的,它对自然对象没有先验知识。NeRF没有接收到从Lmse到无法观测的区域的监督信号,而是依赖于MLP的诱导偏差。我们想引入先验知识,允许NeRF利用双边对称性来实现看似合理的完成。


四、语义上一致的辐射场

基于这些挑战,我们引入了DietNeRF场景表示。DietNeRF使用来自预先训练过的图像编码器的先验知识来指导少镜头设置中的NeRF优化过程

1、语义一致loss

DietNeRF在训练中监督任意摄像机姿势的语义丢失。虽然使用Lmse对地面真实观测图像和渲染图像只有在渲染图像与观测姿态对齐时进行像素级比较才有用,但人类可以很容易地从语义线索中检测出两幅图像是否是同一对象的视图。我们通常可以比较从不同视角捕获的图像的表示。

在这里插入图片描述

如果为ϕ(x)=x,等式(4)减少到Lfull到一个比例因子。

标识映射是依赖于视图的。我们需要一个在对于同一对象的视图相似的表示,并捕获如对象类一样的重要高级语义属性。我们评估了表示来源的两种监督学习的效用。首先,我们用最近预先训练的CLIP模型来实验多模态语言和视觉推理与对比学习。然后,我们评估预先训练的标记图像上的视觉分类器。在这两种情况下,我们都使用了类似的视觉变压器(ViT)架构。

  • ViT的性能可以很好地适应大量的2D数据。对各种各样的图像进行训练,允许网络在训练过程中遇到一个对象类的多个视图,而不需要显式的多视图数据捕获。它还允许我们将可视化编码器转移到图形应用程序中感兴趣的不同对象上。ViT在其第一层从非重叠的图像块中提取特征,然后基于全局自注意用变换块聚合越来越抽象的表示,生成一个单一的全局嵌入向量。在我们早期的实验中,ViT的表现优于CNN编码器

在实践中,CLIP产生了归一化的图像嵌入。当ϕ(·)为单位向量时,等式(4)简化为余弦相似度,直到一个常数和一个比例因子,可以吸收到损失重量λ:

在这里插入图片描述
我们将Lsc (5)称为语义一致loss,因为它衡量的是观察图片和渲染图片之间的高级语义特征的相似性。原则上,语义一致性是一种非常普遍的损失,可以应用于任何基于可微渲染的三维重建系统。

算法

2、图像中的解释性表示

我们使用的预先训练过的CLIP模型是在数亿张带有不同细节标题的图像上进行训练的。图像字幕为图像表示提供了丰富的监督。为了预测这样的标题,图像表示必须捕获一些跨视点都是稳定的高级语义。

  • CLIP表示捕获了图像的视觉属性,如艺术风格和颜色,以及高级语义属性,包括对象标签和类别、面部表情、排版、地理位置和品牌。

我们测量了围绕一个对象的视图的CLIP表示之间的成对余弦相似性。我们发现即使是对于完全相反的相机,视图对具有高度相似的CLIP表示。这表明,大型的、多样化的单视图数据集可以为多视图应用程序诱导有用的表示。

3、姿态采样分布

我们用LSC最小化来增加NeRF训练循环。以及相关迭代过程。

4、提高效率&质量

体积渲染是计算密集型的。计算像素的颜色,在射线的许多点计算NeRF的MLP fθ。为了提高DietNeRF在训练过程中的效率,我们在低分辨率下呈现语义一致性的图像,只需要15-20%的光线作为全分辨率的训练图像。射线在整个图像平面范围内的条纹网格上采样,以确保对象在每次渲染中基本可见。我们发现,在低分辨率下训练时,来自连续分布的采样姿态有助于避免混叠伪影。

在实验中,我们发现Lsc在许多场景中的收敛速度比Lmse要快。我们假设语义一致性损失鼓励DietNeRF在训练早期恢复可信的场景几何,但由于ViT表示ϕ(·)的维数相对较低,对重建细粒度细节的帮助较小。我们利用LSC通过最小化LSC的快速收敛。DietNeRF对k的选择具有鲁棒性,但在10到16之间的值在我们的实验中很有效。

由于通过渲染的反向传播是反向模式自动微分的内存密集型,我们以混合精度计算渲染LSC图像,并以半精度评估ϕ(·)。我们在渲染过程中删除中间的MLP激活,并在反向传递[6,15]期间重新物质化它们。


五、实验&相关工作

(还没复现)


六、总结

单视图二维表示可以有效地转移到欠约束的三维重建问题。虽然预先训练过的图像表示在过去已经通过微调转移到3D视觉应用中,但最近出现的在像CLIP这样的巨大10亿+图像数据集上训练的视觉模型,使惊人的少镜头传输成为可能。我们利用这种可转移的先验知识来解决优化问题,并处理NeRF场景表示家族中的部分可观察性,并显著提高了感知质量。

  • 13
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值