开创性的全360°文本到3D场景生成技术

最新推荐文章于 2024-06-14 10:30:12 发布

人工智能大模型讲师培训咨询叶梓

最新推荐文章于 2024-06-14 10:30:12 发布

阅读量862

点赞数 21

分类专栏：人工智能文章标签： 3d 人工智能场景生成大模型语言模型计算机视觉 360 度

本文链接：https://blog.csdn.net/weixin_44292902/article/details/139061433

版权

人工智能专栏收录该内容

86 篇文章 2 订阅

订阅专栏

随着VR/AR技术的飞速发展，对于沉浸式3D场景的需求不断增长。从游戏到教育，从室内设计到房产展示，沉浸式体验正在成为各行业的新标准。然而，当前的3D场景生成技术面临诸多挑战，包括生成速度慢、场景一致性差以及对高质量3D训练数据的依赖。

DreamScene360采用了一种新颖的方法，将文本描述直接转化为360°全景图像，再通过先进的3D建模技术生成3D场景。这一过程涉及使用2D扩散模型和自我优化机制来创建高质量的全景图像，并利用splatting技术将2D图像提升为3D空间中的点云。

方法

DreamScene360的核心创新在于全景高斯splatting技术，它允许系统在没有多视角信息的情况下，通过单目图像生成具有空间一致性的3D结构。此外，系统还能够通过自我优化机制不断改进生成的图像，以更好地匹配文本描述。

DreamScene360的总体架构从简洁的文本提示开始，利用扩散模型生成360°全景图像。通过自我优化过程，系统产生最佳的2D全景图像候选。接着，使用3D几何场来初始化全景3D高斯。在整个过程中，语义和几何对应关系作为指导原则，用于优化高斯分布，目的是解决和填补由单视图输入导致的视觉和结构上的空白。这一架构确保了从文本到全景图像再到3D场景的转换既语义上与文本提示对齐，也在几何上保持全局一致性。

DreamScene360的第一步是将文本提示转化为全景图像。这个过程基于一个预训练的2D扩散模型，从一个随机噪声图像开始，逐步去除噪声，生成与文本提示相匹配的全景图像。关键在于确保图像的左右两侧连续无缝，为此，研究者采用了特殊的缝合技术，通过优化左右边缘区域的一致性，创建出完整的360°全景图。

为了进一步提升生成图像的质量，DreamScene360采用了自我优化机制。这一机制集成了GPT-4V模型，通过多轮迭代，对生成的草图图像进行质量评估和文本提示的修订。GPT-4V能够根据图像中的对象数量、属性、实体、关系、大小、外观以及与用户原始文本提示的相似度来评分，并提供改进建议。这一过程显著提升了图像的视觉效果，并确保了与文本提示的高度一致性。

将全景图像转换为3D模型是DreamScene360的核心步骤。首先，研究者使用单目深度估计器来生成深度图，该深度图为全景图像中的每个像素提供了一个初始的深度值。然后，通过一个可学习的几何场（由多层感知器MLPs构成），对深度图进行全局结构对齐，解决了单目深度估计的尺度和偏移不确定性问题。

上图展示了DreamScene360生成的多样化3D场景。这些场景不仅在风格上多样化，而且在几何结构上保持一致性，并且与简单的文本输入高度匹配。系统还引入了一个无监督的局部平滑性先验（总变差损失，TV loss），用于优化虚拟视图中的渲染深度，增强了场景的真实感和细节的连贯性。这些特点证明了DreamScene360能够根据文本描述生成高质量、风格迥异且几何上一致的3D场景。

在3D空间中初始化高斯分布是构建3D模型的关键。研究者利用从全景图像中提取的点云作为3D高斯的中心点，通过优化过程调整这些高斯的参数，如位置、不透明度和颜色等。为了解决单视图输入中的不可见区域问题，DreamScene360采用了虚拟摄像机技术来合成视差，模拟多视角信息，并通过从2D模型中提取的语义和几何约束来引导3D高斯的变形，从而填补视觉上的空白。

整个3D场景生成过程通过复合损失函数进行端到端的优化。损失函数包括RGB损失（考虑L1损失和D-SSIM项）、语义正则化损失和几何正则化损失。这些损失函数共同作用于模型的优化过程，确保生成的3D场景在视觉上与文本描述相匹配，同时保持空间一致性和几何准确性。

最后，生成的3D场景可以进行实时探索和渲染。通过将3D高斯投影到2D空间，利用体积渲染技术计算每个像素的颜色，从而实现从任意视角观察3D场景。这一步骤允许用户在全360°范围内自由浏览场景，体验沉浸式的视觉享受。

通过这些步骤，DreamScene360不仅能够从文本描述生成逼真的3D场景，还能够确保场景的全局一致性和高质量的视觉效果，为3D内容创作提供了一个强大的工具。

实验

实验开始于全景图像的生成，分辨率为512×1024，然后通过双线性插值上采样至1024×2048，以创建密集的点云。点云初始化利用了全景深度图，该深度图由优化的几何场预测，确保了局部区域的一致性和平滑性。此外，实验禁用了3D高斯splatting中的密集化过程，以提高渲染场景的整体质量和一致性。

研究者选择了LucidDreamer作为主要的比较对象，因为它也是一个先进的文本到3D场景生成框架。LucidDreamer从单个图像和文本提示开始，通过逐步填充到360°视图构建全局点云，然后提取一组3D高斯。为了公平比较，LucidDreamer的输入图像是使用与DreamScene360相同的文本提示，通过Stable Diffusion v1.5生成的。

上图提供了一个视觉比较，展示了360° 3D场景生成的结果。每一行从左到右显示了随着相机绕yaw轴顺时针旋转，伴随俯仰和位置的轻微随机变化，所得到的新型视角。基线方法LucidDreamer能够从一个受条件限制的图像中生成新视图（由红色边框指示），但缺乏全局的语义、风格和几何一致性。与之相反，DreamScene360的方法提供了没有盲区（基线结果中的黑色区域）的完整360°覆盖，并展示了全局一致的语义。简而言之，DreamScene360在生成3D场景时，能够提供更加一致和全面的视角，而LucidDreamer在保持场景一致性方面存在局限。

由于生成的3D场景没有真实场景作为参考，研究者采用了CLIP嵌入距离来衡量文本-图像对齐度，作为评估新视角渲染质量的一种机制。此外，还使用了多种无参考图像质量评估指标，如NIQE、BRISQUE和QAlign，来衡量图像质量。

DreamScene360能够根据不同风格和内容生成多样化的3D场景，同时保持高保真的新视角渲染能力和现实场景几何形状。这些结果展示了DreamScene360在不同用例中的泛化能力，并为用户提供了友好的体验，以实现他们的想象。

与LucidDreamer相比，DreamScene360在全局一致性、语义、风格和几何一致性方面表现更好。LucidDreamer在生成复杂结构场景时，如街景，会出现重复结果，并且每个补丁分别填充，导致整体结果的一致性差。相比之下，DreamScene360由于使用了全景图像作为中间的全局2D表示，能够提供一致的结果。

Table 1定量地比较了DreamScene360和LucidDreamer两种方法在生成360° 3D场景时的性能。主要的评估指标包括CLIP嵌入距离（CLIP Distance），该指标衡量了生成图像与文本提示之间的语义一致性，值越低表示匹配度越好；Q-Align分数（Q-Align），评估图像的视觉质量，分数越高越好；NIQE和BRISQUE是无参考图像质量评估指标，用于衡量图像质量，值越低表示质量越好；运行时间（Runtime）展示了两种方法完成场景生成所需的时间。

在这些指标上，DreamScene360显示出比LucidDreamer更好的性能，具有更低的CLIP距离和NIQE分数，以及更高的Q-Align分数，这表明DreamScene360生成的图像与文本描述更加一致，视觉质量更高，同时图像质量评估得分也更低，意味着更少的图像伪影和更高的真实感。此外，尽管DreamScene360的运行时间略长，但考虑到其在质量上的提升，这是可接受的。总的来说，Table 1证明了DreamScene360在生成高质量、语义一致的360° 3D场景方面的有效性和优越性。

消融实验部分（Ablation Study）深入探讨了DreamScene360中不同组件对最终3D场景生成质量的影响。通过下图的可视化比较，我们可以看到，与随机初始化的几何结构相比，采用全局对齐的单目几何初始化可以显著提高渲染质量，减少由视角变化引起的视觉伪影。

在3D初始化方面，上图展示了没有使用几何先验的场景优化结果。在这种情况下，尽管全景摄像机视图看起来合理，但当渲染相机位置发生变化时，就会出现明显的伪影。相比之下，(b)采用了全局对齐的单目几何初始化，结合了可学习的对齐因子和几何场，确保了在多个视图之间的一致性，从而显著提高了渲染质量。

我们可以得出结论，适当的3D初始化和精心设计的损失函数对于生成高质量、一致性强的360° 3D场景至关重要。DreamScene360通过结合这些策略，能够生成与文本描述高度一致，并且在不同视角下都保持几何和语义连贯性的3D场景。

消融实验还分析了优化损失函数的影响，证明结合语义和几何正则化对于减少不可见视图产生的伪影至关重要。综合这些发现，消融实验强调了精心设计的初始化策略和损失函数在生成高质量、全局一致的360° 3D场景中的重要性。通过这些实验，研究者能够验证DreamScene360各个组件的有效性，并为进一步的优化提供了指导。

DreamScene360不仅满足了市场对于快速、高质量3D场景生成的需求，同时也为未来3D内容创作的自动化和智能化铺平了道路。尽管当前的实现仍有局限性，如分辨率限制，但其在3D场景生成领域的潜力不容小觑。

论文链接：https://arxiv.org/abs/2404.06903

项目地址：https://dreamscene360.github.io/

人工智能大模型讲师培训咨询叶梓

关注

21
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
0
评论
开创性的全360°文本到3D场景生成技术

随着VR/AR技术的飞速发展，对于沉浸式3D场景的需求不断增长。从游戏到教育，从室内设计到房产展示，沉浸式体验正在成为各行业的新标准。然而，当前的3D场景生成技术面临诸多挑战，包括生成速度慢、场景一致性差以及对高质量3D训练数据的依赖。DreamScene360采用了一种新颖的方法，将文本描述直接转化为360°全景图像，再通过先进的3D建模技术生成3D场景。这一过程涉及使用2D扩散模型和自我优化机制来创建高质量的全景图像，并利用splatting技术将2D图像提升为3D空间中的点云。
复制链接

扫一扫