3D生成技术的最新进展综述

人工智能咨询培训老师叶梓 转载标明出处

自动生成3D模型一直是计算机视觉和图形学中的一个重要任务。随着神经表示和生成模型的进步,3D内容生成领域迅速发展,能够创建出越来越高质量的多样化3D模型。本文综述了3D生成技术的最新进展,涵盖了3D表示、生成方法、数据集以及相关应用。通过对这些技术的系统性总结,本文旨在为读者提供一个全面的3D生成框架和其基本原理的快速理解,并帮助研究人员在特定领域快速识别相关工作,促进3D内容生成领域的进一步发展。

多种3D生成方法的结果,包括3D-GAN、DeepSDF、DMTet、EG3D、DreamFusion、PointE、Zero-1to3和Instant3D

3D表示

在3D生成领域,选择合适的3D模型表示方法至关重要。这些表示方法不仅用于创建和渲染3D模型,还可以用于从不同视角合成图像。

用于3D生成的神经场景表示,包括显式、隐式和混合表示

显式表示

点云是欧几里得空间中的元素集合,代表三维空间中的离散点及其附加属性(如颜色和法线)。点云可以被视为无限小的表面片,也可以是具有半径的定向点云(surfels),在计算机图形学中用于渲染。点云的不同方法如Neural Point-based Rendering、SynSin、Pulsar和ADOP利用可学习的特征来存储表面外观和形状的信息,从而实现更准确和详细的渲染结果。通过将点云基础的不同样式渲染器集成到3D生成过程中,研究人员可以利用点云的优势,同时保持与基于梯度的优化技术的兼容性。

通过将多个顶点通过边连接,可以形成更复杂的几何结构,如线框和网格。这些结构可以通过使用多边形(通常是三角形或四边形)进一步细化,以创建对象的真实表示。网格提供了一种多功能且有效的方式来表示复杂的形状和结构,因为它们可以被计算机算法轻松操作和渲染。大多数图形编辑工具链使用三角形网格。为了与这些工具链无缝集成,神经网络可以被训练以预测离散的顶点位置,从而实现直接导入这些位置到任何数字内容创建(DCC)管道中。

使用多个半透明彩色层来表示场景在实时新视角合成中一直是一个流行且成功的方案。Layered Depth Image(LDI)表示是一个著名的例子,它通过将多个深度图层与相关的颜色值结合起来,扩展了传统的深度图。Stereomagnification引入了多个图像(MPI)表示,描述了使用多个前平行半透明层的场景,包括颜色和不透明度,在通过平面扫描体积的固定深度范围内。通过体积渲染和单应投影,可以在实时中合成新视角。

隐式表示

隐式表示已成为视图合成或形状重建问题的首选场景表示方法,以及计算机图形学和视觉中的许多其他应用。与通常关注对象表面的显式场景表示不同,隐式表示可以定义3D对象的整个体积,并使用体积渲染进行图像合成。这些表示使用数学函数,如辐射场或有符号距离场,来描述3D空间的属性。

神经辐射场(NeRFs)作为3D场景或几何体的一种新颖表示方法,已经获得了显著的关注。NeRF通过查询隐式神经网络来获取体积参数,如视依赖的辐射度和体积密度。这种创新的表示方法为捕获3D场景的细节提供了更流畅和适应性强的方式,为增强的渲染和建模技术铺平了道路。

在形状重建的范围内,神经网络处理3D坐标作为输入,并生成一个标量值,这通常表示与表面的有符号距离。这种方法在填补缺失信息和生成平滑、连续的表面方面特别有效。隐式表面表示将场景的表面定义为一个可学习的函数,该函数指定从每个点到表面的有符号距离。基本表面可以从零级集S = {x ∈ R3 | f(x) = 0}中提取出来,为重建复杂的3D形状提供了一种灵活且高效的方式。

混合表示

虽然隐式表示在各种应用表现不错。然而,大多数当前的隐式方法依赖于回归到NeRF或SDF值,这限制了它们从目标视图或表面的显式监督中受益的能力。显式表示可以在训练期间施加有用的约束,并改善用户体验。为了利用这两种表示的互补优势,研究人员已经开始探索混合表示。这些表示涉及嵌入特征的场景表示(无论是显式的还是隐式的),这些特征使用渲染算法进行视图合成。

早期工作使用体素来描述3D形状,这些体素在规则网格上存储粗略的占用(内部/外部)值。这种方法使强大的卷积神经网络能够本地操作并产生令人印象深刻的结果。最近,为了解决隐式表示的训练和渲染速度慢的问题,提出了基于3D体素的嵌入方法。这些方法编码场景的空间信息并更有效地解码特征。

三平面表示是使用体素网格嵌入特征在3D形状表示和神经渲染中的替代方法。这种方法的主要思想是将3D体积分解为三个正交平面(例如,XY、XZ和YZ平面),并在这平面上表示3D形状的特征。

DMTet是一种最近发展起来的混合三维表面表示,它结合了显式和隐式形式,创建了一个多功能且高效的模型。它将3D空间分割成密集的四面体,从而形成显式分区。通过整合显式和隐式表示,DMTet可以更有效地优化,并无缝转换为显式结构,如网格表示。在生成过程中,DMTet可以可微地转换为网格,从而实现快速高分辨率多视图渲染。这种创新方法在3D建模和渲染的效率和多功能性方面提供了显著的改进。

生成方法

3D生成的方法根据其算法范式被分为四大类:前馈生成、基于优化的生成、过程生成和生成式新视角合成。

3D生成方法的演化树,包括前馈生成、基于优化的生成、过程生成和新颖视角合成
3D生成方法的例子,包括它们使用的生成模型、生成空间和重建空间的表示,以及渲染监督条件

前馈生成

前馈生成方法是一种直接利用生成模型来产生3D数据的途径,这种方法在生成过程中不需要迭代优化,而是通过一步到位的方式生成结果。

几种代表性的前馈3D生成模型的流程,包括GANs、扩散模型、自回归模型、VAEs和正规化流

生成对抗网络 (GANs)

生成对抗网络是一种强大的生成模型,它通过生成器和鉴别器的对抗训练来生成逼真的数据。在3D生成的背景下,GANs被用来生成各种3D结构和形状。生成器负责产生3D数据,而鉴别器则评估这些数据的真实性。3D GANs可以利用点云、体素网格、多边形网格或隐式表面函数等不同的3D表示形式,通过学习大量的3D样本来生成新的3D模型。这些模型在细节和多样性上都有显著的表现。

扩散模型

扩散模型是另一种生成模型,它模拟数据分布的扩散过程,通过逐步添加噪声并在逆过程中去除噪声来生成新的样本。在3D生成中,扩散模型可以从简单的高斯分布开始,逐渐通过逆扩散过程生成复杂的3D形状。这种方法在捕捉数据的高阶结构上表现出色,能够生成具有高度多样性和真实感的3D模型。

自回归模型

自回归模型依赖于序列数据的联合概率分布,通过已知的序列元素预测下一个元素。在3D生成中,这意味着模型可以根据已经生成的部分来预测和生成下一个3D元素,如点或体素。这种模型特别适合于生成具有明确序列或结构的数据,例如人体姿势或物体的特定排列。

变分自编码器 (VAEs)

变分自编码器由编码器和解码器组成,能够学习输入数据的潜在表示,并从这些潜在表示中生成新的数据。在3D生成中,VAEs可以用来生成具有特定分布的3D模型。与GANs相比,VAEs的训练过程通常更稳定,但生成的3D模型可能在细节上不如GANs清晰。

归一化流

归一化流模型通过一系列可逆的变换将数据从简单分布映射到复杂分布。在3D生成中,这种方法可以用来学习3D形状和点的分布。归一化流的优势在于其可逆性和灵活性,能够生成具有复杂结构的3D数据,并且可以通过调整变换来控制生成结果的特性。

这些前馈生成方法在3D生成领域中各有优势和应用场景。随着研究的深入,这些技术不断进步,为生成逼真和多样化的3D内容提供了强大的工具。但这些方法仍然面临着如何平衡生成质量和多样性、如何提高生成效率等挑战。未来的研究可能会集中在改进这些模型的结构、优化训练过程以及探索新的应用领域。

基于优化的生成

基于优化的生成方法是一种在3D模型生成中应用较为广泛的技术。这种方法的核心在于利用预训练的多模态网络,在运行时对3D模型进行优化,以生成符合用户指定提示的3D内容。这些方法不仅注重生成内容的高保真度,同时也强调内容的多样性,以满足不同用户的需求。

基于文本的3D生成方法

文本到3D的方法充分利用了语言在人类交流和场景描述中的核心作用。在这一过程中,文本描述被用作生成3D模型的提示信息。为了实现这一点,研究者们开发了将文本与图像对齐的技术,这些图像是通过可微渲染技术获得的,从而能够反映文本描述的内容。

这种方法的一个关键优势在于其能够理解和转化自然语言中的语义信息,将其转化为3D视觉内容。例如,给定一个描述“一个坐在椅子上的猫”,文本到3D的系统需要能够理解这句话中的各个元素,并生成相应的3D模型。这通常涉及到复杂的语义解析和场景构建过程,需要模型能够处理语言的多义性和模糊性。

使用DreamFusion通过文本引导的3D生成结果

基于图像的3D生成方法

与文本到3D的方法不同,图像到3D的方法更侧重于利用图像直观描述场景细节和外观的能力。这种方法的目标是从一张或多张指定的图像中重建出3D模型,同时引入合理的几何先验,以确保生成的3D模型在结构和外观上与原图像保持一致。

图像到3D的方法在处理具体的视觉信息时更为直接,因为图像提供了丰富的纹理、光照和形状信息。这些信息可以用来指导3D模型的生成过程,从而生成高保真的3D模型。例如,如果提供一张特定角度的物体照片,图像到3D的系统需要能够从这个视角出发,推断出物体的完整3D结构。

对图像到3D方法在表面重建方面的定量比较
对图像到3D方法在新视角合成方面的定量比较

这两种基于优化的生成方法各有优势,文本到3D的方法在处理抽象描述和创造性任务时更为灵活,而图像到3D的方法则在处理具体视觉信息和生成高保真模型时更为有效。随着技术的发展,这些方法在3D内容创作、虚拟现实、游戏开发和电影特效等领域都有着广泛的应用前景。然而,它们也面临着一些挑战,如如何提高生成内容的准确性、如何处理复杂的场景描述,以及如何优化生成过程以实现实时或近实时的生成速度。未来的研究将继续探索这些问题,以推动3D生成技术的发展。

过程生成

过程生成是一种强大的技术,它通过预定义的规则、参数和数学函数来生成3D模型和纹理,从而创造出丰富多样的内容。这种技术在计算机图形学和游戏开发中尤为重要,因为它可以自动产生大量独特的内容,而无需手动建模每一个对象。

分形几何

分形几何是一种基于自相似性原理的数学方法,它能够在不同的尺度上重复相同的模式。这种特性使得分形成为创建复杂自然景观和表面的理想选择。例如,山脉的轮廓、树木的枝干以及河流的流域都可以通过分形算法生成,这些算法能够以相对简单的规则产生高度逼真的自然地形。

L-系统

L-系统,或称林登迈尔系统,是一种基于形式文法的模型,它使用一组规则来转换和生成字符串,这些字符串可以被解释为构造3D模型的指令。L-系统特别适用于生成植物和其他有机结构,如树木、灌木和草。通过递归地应用规则,L-系统能够创建出具有高度复杂性和多样性的3D模型。

噪声函数

噪声函数,如Perlin噪声和Simplex噪声,是用于生成连贯随机模式的数学工具。这些模式在3D建模中非常有用,因为它们可以生成自然的纹理和形状,如山脉、云彩或海洋表面的波动。噪声函数可以被用来调制3D模型的表面细节,或者作为动画和模拟中的随机性来源。

细胞自动机

细胞自动机是一种由细胞网格组成的离散计算模型,每个细胞都有一组状态,并且根据周围细胞的状态和一组固定的规则进行更新。这种模型可以用来模拟自然现象,如火灾的蔓延、水流的侵蚀或生物种群的增长。在3D生成中,细胞自动机可以用来创建复杂的结构和纹理,或者用于模拟物理过程,如岩石的风化或地形的演变。

过程生成技术的优势在于其能够以较低的成本生成大量内容,同时保持高度的多样性和真实感。然而,这种方法也有其局限性,例如生成的内容可能缺乏艺术指导和个性化,且规则的设定可能需要专业知识和精心调整。随着技术的进步,过程生成技术正不断融合新的算法和创意,以解决这些挑战,并在3D内容创作中发挥更大的作用。

生成式新视角合成

生成式新视角合成是3D生成领域中一个非常活跃的研究方向,它主要关注如何从单个输入图像中预测并生成新的视角。这种方法与传统的3D生成方法不同,它不依赖于显式的3D模型表示来确保3D一致性,而是通过条件化3D信息来实现新视角的合成。

在新视角合成的早期研究中,回归方法被广泛使用。这些方法通常从一组输入图像中学习场景的几何和外观信息,然后尝试预测新视角下的图像。与生成式方法不同,回归方法更侧重于从有限的视角中恢复场景的结构,而不是创造全新的视角。

生成式技术在新视角合成中的应用相对较新,它们利用深度学习模型,特别是生成对抗网络(GANs)和变分自编码器(VAEs),来学习场景的分布,并生成新的视角。这些方法通常能够产生更加多样化和逼真的视角,因为它们不是简单地从现有视角中进行插值,而是从头开始生成新的视角。

在生成新视角图像时,保持多视角一致性是一个关键挑战。为了解决这个问题,研究者们开发了多视角扩散模型,这些模型能够同时考虑多个视角的信息,从而生成在不同视角下都一致的图像。这种方法有助于提高生成图像的质量和真实感。

随着深度学习中注意力机制的兴起,基于Transformer的模型在新视角合成中也显示出了巨大的潜力。这些模型通过多头注意力机制捕捉不同位置的信息,从而在生成新视角时能够更好地理解场景的全局结构。这种方法在处理复杂场景和提高生成图像的准确性方面表现出色。

生成式新视角合成技术在虚拟现实(VR)和增强现实(AR)领域具有重要的应用价值。通过从用户的当前视角生成新视角,这些技术可以为用户提供更加沉浸式和互动性的体验。例如,在虚拟环境中,用户可以通过移动头部来查看场景的不同部分,而生成式新视角合成技术可以实时生成用户所看到的新视角。

尽管生成式新视角合成技术取得了显著的进展,但仍面临一些挑战。例如,如何提高生成图像的分辨率和质量,如何处理复杂光照和遮挡问题,以及如何实现实时或近实时的生成速度。未来的研究可能会集中在开发更高效的算法,提高模型的泛化能力,以及探索新的应用场景。

数据集

用于3D生成的常用数据集,包括它们的类型、年份、样本数量和类别

从3D数据学习

在3D生成的早期阶段,3D模型数据库如普林斯顿形状基准测试(Princeton Shape Benchmark)为研究人员提供了基础的3D模型集合。这些模型大多从互联网上收集而来,为3D视觉任务提供了宝贵的资源。随着技术的发展,出现了更大规模的数据集,如ShapeNet。ShapeNet是一个包含55个常见对象类别、约51,300个模型的大型3D CAD模型库,这些模型都经过了人工验证,确保了类别和对齐注释的准确性。这些数据集极大地推动了3D内容生成和理解的研究。

除了从现有的数据库获取3D模型,3D数据还可以通过RGB-D传感器和其他扫描重建技术获得。这些技术能够捕捉现实世界中的物体,并将其转换为数字3D模型。这些3D扫描数据不仅用于3D生成,还广泛应用于提高2D视觉任务的性能、环境模拟以及3D对象理解等领域。例如,通过扫描技术获得的3D数据可以用于机器人导航、增强现实应用和虚拟环境中的物体交互。

从多视图图像学习

传统的3D对象创建方法包括手动建模、对象扫描和CAD模型转换等。这些方法虽然能够产生高质量的3D数据,但往往受限于特定对象,且重建精度有限。这些技术通常需要专业的知识和技能,且生成的数据可能缺乏多样性和真实性。因此,研究人员一直在探索如何通过自动化和数据驱动的方法来提高3D对象创建的效率和质量。

为了克服传统3D对象创建方法的局限性,研究人员开始利用多视图图像数据集来训练和评估3D生成方法。这些数据集直接提供野外环境中的多视图图像,为3D生成提供了丰富的视觉信息。例如,ScanNet是一个包含1513个场景、约250万视图的大规模RGB-D视频数据集。这些数据集不仅提供了丰富的视角,还包含了场景的深度信息,使得研究人员能够训练出能够从多个视角理解和重建3D场景的模型。

从单视图图像学习

3D生成方法通常依赖于多视图图像或3D真实数据来监督3D表示的重建和生成。然而,仅使用单视图图像来合成高质量的多视图图像或3D形状是一个具有挑战性的问题。单视图图像数据集,尽管只提供了有限的视觉信息,但它们在3D生成中扮演着重要角色,尤其是在缺乏多视图数据的情况下。这些数据集通过提供丰富的纹理和细节信息,帮助3D生成模型学习到如何从单一视角推断出三维结构。

3D感知生成对抗网络(GANs)是一类利用无监督训练从自然图像中学习3D表示的技术。这些模型通过对抗训练的方式,使得生成器能够产生逼真的3D图像,而鉴别器则学会区分真实图像和生成图像。3D感知GANs的关键优势在于它们能够从单视图图像中学习到3D形状和纹理的复杂性,而无需依赖于显式的3D数据。这种方法为3D生成提供了一种有效的途径,尤其是在数据获取受限的情况下。

特定领域或类别的大规模图像数据集在3D生成中也发挥着重要作用。例如,FFHQ(高质量人脸图像数据集)和AFHQ(动物面部数据集)等数据集,为3D面部生成提供了丰富的视觉素材。这些数据集不仅包含高分辨率的图像,还涵盖了多样化的表情、光照条件和视角,使得3D生成模型能够学习到更为真实和多样化的面部特征。这些数据集还常用于训练3D感知GANs,以生成具有高度逼真度的3D面部模型。

应用

3D人体生成

随着元宇宙和虚拟3D社交互动技术的发展,3D人体数字化和生成领域受到了越来越多的关注。3D人体生成技术不仅能够创建逼真的虚拟角色,还能够用于增强现实和虚拟现实应用,提供沉浸式体验。在这一领域,研究主要集中在处理复杂的姿势变化和服装的几何细节,以实现高度逼真和动态的3D人体模型。

最近的3D人体生成技术及其对应的输入输出格式

这些方法根据输入条件(如单图像、文本或潜在特征)和生成的3D人体模型的输出格式(如纹理化的形状或完整的3D网格)进行分类。例如,一些方法可能依赖于单图像来生成人体的几何形状和纹理,而其他方法则可能利用文本描述来引导3D人体的生成。

3D面部生成

3D面部生成的应用和方法的代表性图像

个性化头部化身的创建旨在生成可从不同视角观看的目标人物的动画化身。这种技术广泛应用于生成会说话的头部图像,如虚拟新闻主播、游戏角色和电影特效。通过捕捉面部表情和头部动作,这些化身能够提供更加自然和真实的交互体验。

神经隐式3D可变形模型(3DMMs)利用隐式神经表示进行面部建模,能够理论上建模无限细节。与传统的基于网格的3DMMs相比,神经隐式3DMMs可以更精细地捕捉面部的微妙变化,包括表情和发型。这种方法的优势在于其能够处理复杂几何结构,同时保持高效的计算性能。

生成式3D面部模型与2D面部模型不同,可以合成同一目标的多视角一致图像。这些模型不仅能够生成单一视角的面部图像,还能够生成从不同角度观察时的一致外观。早期的方法如HoloGAN和PlatonicGAN等,虽然能够生成高质量的3D面部图像,但分辨率有限。随着技术的发展,利用神经辐射场(NeRF)等先进技术的方法,如EG3D,已经能够生成具有高分辨率和良好多视角一致性的3D面部图像。

通用场景生成

与3D人体和面部生成不同,通用场景生成更依赖于语义或类别的相似性来设计3D模型生成框架。根据生成结果的差异,将通用场景生成进一步细分为以对象为中心的资产生成和面向场景的生成。

一般场景生成方法的应用,包括它们生成的对象类型、条件和纹理生成

近年来,以对象为中心的资产生成领域取得了显著进展,主要集中在无纹理形状生成和有纹理资产生成。例如,早期使用基于生成对抗网络(GAN)的网络来学习从潜在空间到3D对象空间的映射。但受限于GAN的生成能力,这些方法只能生成特定类别的粗糙3D资产。为了提高生成结果的质量,一些方法利用扩散模型在图像生成中的显著成就,探索将扩散过程应用于3D形状生成。

早期的场景生成方法通常需要特定的场景数据进行训练以获得特定类别的场景生成器。然而,这些方法在生成质量或场景的可扩展性上受到限制。随着图像修复中扩散模型的兴起,各种方法开始使用扩散模型的场景完成能力来实现场景生成任务。

3D编辑

根据编辑发生区域的不同,将现有作品分为全局编辑和局部编辑。全局编辑的工作目标是全局地改变竞争3D场景的外观或几何形状。与局部编辑不同,它们通常不会特意从完整且复杂的场景或对象中隔离出特定区域。最常见的是,它们只关心结果场景是否呈现所需的新“风格”,并保留(维持一些)原始场景的特征。这一类别的代表性任务包括风格化和单对象操作(例如重新纹理化),如图12所示。

代表性的3D编辑任务

局部编辑任务有意修改完整场景或对象的特定区域,这些区域可以是手动提供的或自动确定的。常见的局部编辑类型包括外观操作、几何变形、对象/语义级复制/删除和移动/删除。例如,NeuMesh支持包括交换、填充和绘制在内的几种纹理操作,因为它们将NeRF场景蒸馏成基于网格的神经表示。NeRFShop和CageNeRF通过变换/变形由网格笼子界定的体积,从而产生移动或变形/关节化的对象。SINE通过几何先验和语义(图像特征)纹理先验作为正则化,同时更新NeRF几何和外观。另一系列工作(例如ObjectNeRF、ObjectSDF、DFF)专注于在重建过程中自动将场景分解为单独的对象或语义部分,这通过利用额外的2D图像理解网络(例如实例分割)实现,并支持后续的对象级操作,如重新着色、移除、位移、复制。

尽管3D生成技术取得了显著进展,但仍面临许多挑战,如生成质量的客观评估、数据集的多样性和规模、表示方法的选择以及生成内容的可控性。这些挑战需要进一步的研究和探索,以推动3D生成技术在工业标准中的应用。

论文链接:https://arxiv.org/abs/2401.17807

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值