Text2NeRF: 利用NeRF实现文本驱动的3D场景生成

23年5月来自香港城市大学的论文“Text2NeRF: Text-Driven 3D Scene Generation with Neural Radiance Fields“。

文本-图像生成方面的最新突破也引发了人们对零样本文本-3D生成的极大兴趣[1]-[4],因为使用自然语言提示明确所需的3D模型是直观的,因此可以提高3D建模工作流程的生产率,并减少新手的障碍。然而,与数据丰富的文本-图像配对的情况相反,获取大量的文本-3D配对数据是不切实际的,这使得文本-3D的生成任务仍然具有挑战性[2],[5],[6]。

为了规避这种数据限制,一些先驱工作,包括CLIP-Mesh[7]、Dream Fields[1]、DreamFusion[2]和Magic3D[6],使用预训练的文本-图像模型(如CLIP[8]或图像扩散模型[9]、[10])的深层先验来优化3D表示,从而在不需要标记3D数据的情况下实现文本-3D的生成。尽管这些方法取得了巨大的成功,但生成结果仍然局限于具有简单几何形状和梦幻风格的3D场景。这些限制可能源于这样一个事实,即从预训练的图像模型中导出的用于优化3D表征的深层先验只能对高级语义施加约束,而忽略了低级细节。

相比之下,最近并行的工作SceneScape[11]和Text2Room[12]直接采用文本图像扩散模型生成的彩色图像来指导3D场景的重建。尽管这些方法支持生成逼真的3D场景,但由于明确的3D网格表示的限制,这些方法主要关注室内场景,并且难以扩展到大规模的室外场景,例如由天真的三角测量和噪声深度图估计引起的延伸几何。相比之下,本文方法用NeRF作为3D表示,在建模具有复杂几何形状的不同场景方面具有更大的优势。

本文提出Text2NeRF,这是一种文本驱动的3D场景生成框架,结合了最佳神经辐射场(NeRF)[13]和预训练的文本-图像扩散模型。采用NeRF作为3D表示,因为其在各种场景中建模细粒度和逼真细节方面具有优势[14]-[16],可以显著抑制三角网格引起的伪影。此外,用预训练的文本-图像扩散模型作为图像级别,然后从头开始约束NeRF优化,而不需要额外的3D监督或多视图训练数据。

如图所示,Text2NeRF是一个文本驱动的3D场景生成框架,结合了神经辐射场表示和预训练的文本-到-图像扩散模型。Text2NeRF 能够仅根据自然语言描述生成多样化且视图一致的室内/室外 3D 场景。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GbyxMC8E-1722096239559)(https://i-blog.csdnimg.cn/direct/559929ab9c2a43d88d6aa500a208dde0.png)]

如图所示Text2NeRF 概述。给定输入文本提示,推断初始视图 I0,并通过预训练扩散模型和深度估计模型估计其深度 D0。然后,用基于深度图像的渲染(DIBR)将初始视图及其深度图扭曲为各种视图,构建用于初始化神经辐射场(NeRF)的支持集S0。之后,设计一个渐进式场景修复和更新策略,一致地补全缺失区域。在每次更新期间,先在新视图 k 中渲染初始化的 NeRF,生成缺少区域的图像 Ik 和深度 Dk。然后,用扩散模型生成完整的图像Iˆ,并利用深度估计模型预测其深度DE;此外,在Dk和DkE上实现两级深度对齐,获得对齐深度Dˆk。最后,将视图 k 的支持集 Sk 添加到训练数据中,更新 NeRF。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rjGxENKA-1722096239563)(https://i-blog.csdnimg.cn/direct/c1154d09739c4d35ba400708c89b3917.png)]

与之前的方法不同,例如DreamFusion[2],用语义先验来监督3D生成,Text2NeRF用扩散模型推断的更细粒度图像先验,从而使Text2NeRF能够在3D场景中生成更精细的几何结构和逼真的纹理。具体而言,用扩散模型来生成文本相关图像作为内容先验,并使用单目深度估计方法来提供生成场景的几何先验。利用内容和深度先验来优化NeRF表示的参数。此外,为了保证不同视图之间的一致性,提出一种用于3D场景新视图合成的渐进修复(inpainting)和更新策略(PIU)。通过PIU策略,生成的场景可以按照相机轨迹逐视图进行扩展和更新。这样,渲染更新的NeRF,可以将当前视图的扩展区域反映在下一个视图中,确保了在场景扩展过程中不会重复扩展同一区域,从而确保生成场景的连续性和视图一致性。

简言之,NeRF的3D表示与PIU策略一起确保由扩散模型生成的视图一致图像,用于生成视图一致的3D场景。在实践中发现NeRF的单视图训练会导致对该视图的过拟合,在逐视图更新过程中由于缺乏多视图约束而导致几何模糊。为了克服这个问题,为生成的视图建立了一个支持集(support set),为NeRF模型提供多视图约束。

同时,受DDP[17]的启发,除了图像RGB损失外,还采用L2深度损失来实现深度-觉察NeRF优化,提高NeRF模型的收敛速度和稳定性。考虑到不同视角下的深度图是独立估计的,并且在重叠区域中可能不一致,进一步引入两阶段深度对齐(depth alignment)策略,以对齐不同视角下同一点的深度值。得益于上述精心设计的组件,Text2NeRF能够仅从自然语言描述中生成多样化、高保真度和视图一致的3D场景。由于方法的通用性,Text2NeRF可以生成广泛的3D场景,包括室内、室外甚至艺术场景,并且不受视野范围的限制,可以生成360度场景。
如下的算法1即这个渐进式场景修复和更新策略。在此策略中,在每次修复过程后更新辐射场 fθ。这意味着之前上色的内容将反映在后续的渲染中,这些部分将被视为已知区域,不会在其他视图中再次着色。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wPIHnbXv-1722096239564)(https://i-blog.csdnimg.cn/direct/bd3366912d7e46359a29265cbf135bc9.png)]

相关工作回顾:

文本驱动的3D生成

3D生成的长期问题需要构建不同视图一致的3D几何结构和高保真纹理。早期的工作,如3D-GAN[18]、Pointflow[19]和ShapeRF[20],更多地关注基于体素或点云表示的特定类无纹理几何形状生成。随后,PlatonicGAN[21]、HoloGAN[22]和VolumeGAN[23]被提出从特定类别的数据集(如汽车、人脸、室内场景等)学习结构和文本表示来生成有纹理的3D场景。尽管这些方法在特定类实现了有希望的3D场景,但它们无法处理文本驱动的生成任务。为了实现文本驱动的3D生成,Text2shape[24]使用两个编码器网络从特定的场景-文本配对数据集中学习嵌入空间文本和3D模型之间的跨模态连接。

由于文本-图像方法的快速发展,最近的工作旨在采用预训练的文本-图像模型来指导3D场景的生成。例如,CLIP-Mesh[7]采用语义监督优化策略,在预训练的CLIP[8]模型指导下推导3D网格的形状和纹理。与CLIP-Mesh类似,PureCLIPNeRF[25]和DreamFields[1]使用预训练的CLIP模型来指导有隐含NeRF表示的3D目标生成。与CLIP模型相比,最先进的文本-图像扩散模型[9]、[10]、[26]、[27],由于其丰富的训练数据和出色的结构,无疑具有更强大的生成能力。因此,DreamFusion[2]和SJC[3]提出一种分数蒸馏采样(SDS)损失,以从预训练的文本-图像的扩散模型[9]、[10]中提取深层语义先验,并监督3D模型的生成网络。

随后,提出一些后续工作,如Magic3D[6]、Latent-NeRF[28]和3DFuse[4],在SDS损失的约束下提高生成的3D模型质量。尽管这些方法能够生成与输入提示相关的各种3D模型,但无法生成具有复杂几何形状和高保真纹理的真实感3D场景,因为只有预训练模型的高级语义先验用于约束3D生成。相反,Text2NeRF从预训练文本-图像的扩散模型中推断出低层的内容和深度先验,从而很好地约束真实感3D场景的几何和纹理细节。

最近,SceneScape[11]和Text2Room[12]独立并与该文工作并行,提出了类似于的文本-3D生成方案。不同的是,在生成过程中用显式多边形网格作为3D表示,这限制户外场景的表示,并导致网格面的融合区域中出现拉伸几何和模糊伪影。相反,隐NeRF表示和重建策略可以在没有特定场景要求的情况下对细粒度的几何和纹理进行建模,从而使我们的方法能够产生室内和室外场景。

基于单图像的新视图合成

受3D展示约束的一些新视图合成方法能够从单图像生成3D一致的体验。例如,现有的几种3D摄影方法,如SVS[29]、3DP[30]和3D Ken-Burns[31],用多平面图像(MPI)或分层深度图像(LDI)作为3D表示,然后用预训练的修复(inpainting)模型来补全遮挡区域,合成看似合理的新视图。然而,由于其特定的3D表示限制,这种方法只能产生小范围的视图。相比之下,其他一些方法将单视图图像信息映射到传统的3D模型来实现3-D重建和新视图合成。例如,SynSin[32]基于预测的深度将图像特征转换为点云,并对渲染的特征图进行解码,合成3D场景的新视图。PixelSynth[33]直接将像素颜色映射到3D点来构建点云,并引入outpainting和细化模块来填充新视图中缺失的信息。

Worldsheet[34]根据输入图像和预测深度而扭曲的一大片平面网格(planar mesh sheet)来合成3D场景的新视图。

直观地说,直接应用这些方法中的一种,将文本-图像模型生成的图像外推到新视图,对于文本驱动的3D生成来说,是一种天真的策略。然而,这种天真的策略在几个方面有限。首先,场景外推仅基于输入图像,而不以文本提示为条件。因此,生成的场景在输入图像周围的有限视图范围内,难以确保语义一致性。相反,Text2NeRF方法允许在给定文本提示驱动的新视图中生成新内容。因此,其场景不受视野范围的限制,甚至可以生成与文本描述一致的360度场景。此外,采用的显式3D表示,如粗糙网格或点云,限制了渲染精细结果,而Text2NeRF利用隐NeRF表示在表示和渲染高保真细节方面更为出色。

  • 16
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值