3D Gaussian Splatting综述

三谷秋水

已于 2024-10-31 17:22:53 修改

阅读量568

点赞数 5

分类专栏：人工智能机器学习计算机视觉文章标签： 3d 人工智能机器学习深度学习计算机视觉

于 2024-07-31 00:04:05 首次发布

本文链接：https://blog.csdn.net/yorkhunter/article/details/140784925

版权

机器学习同时被 3 个专栏收录

559 篇文章

订阅专栏

计算机视觉

469 篇文章

订阅专栏

人工智能

426 篇文章

订阅专栏

24年1月来自浙江大学的论文“3D Gaussian splatting”。

3D Gaussian splatting (3D GS) 最近成为显式辐射场和计算机图形领域的一项变革性技术。这种创新方法的特点是利用数百万个 3D 高斯，与神经辐射场 (NeRF) 方法有很大不同，后者主要使用隐式基于坐标的模型将空间坐标映射到像素值。3D GS 具有显式场景表示和可微分渲染算法，不仅保证了实时渲染能力，而且还引入了前所未有的控制和可编辑性。这使得 3D GS 成为下一代 3D 重建和表示的潜在游戏规则改变者。

本文系统地概述 3D GS 领域的最新发展和关键贡献。首先详细探讨 3D GS 出现背后的基本原理和驱动力，为理解其重要性奠定基础。重点是 3D GS 的实际适用性。通过促进实时性，3D GS 开辟大量应用，从虚拟现实到交互式媒体等等。此外，对领先的 3D GS 模型进行比较分析，并在各种基准任务中进行评估，突出它们的性能和实用性。最后确定当前的挑战，并提出该领域未来研究的潜在途径。

虽然 NeRF 在创建逼真的图像方面表现出色，但对更快、更高效的渲染方法的需求也日益明显，特别是对于需要实时性能的应用程序而言。3D GS 通过引入一种使用数百万个 3D 高斯的场景表示技术来满足这一需求。与隐式的基于坐标模型 [1]、[15]、[16] 不同，3D GS 采用显式表示和高度并行化的工作流程，从而促进更高效的计算和渲染。3D GS 的创新之处在于它独特地融合可微分流水线和基于点渲染技术 [17]– [22] 的优势。通过用可学习的 3D 高斯表示场景，它保留连续体辐射场的理想特性，这对于高质量图像合成至关重要，同时避免在空白空间中渲染相关的计算开销，这是传统 NeRF 方法的常见缺点。

3D GS 的引入不仅仅是一项技术进步；它代表在计算机图形学中场景表示和渲染方法的根本性转变。通过实现实时渲染功能而不损害视觉质量，3D GS 为从虚拟现实、增强现实到实时电影渲染等领域的应用开辟广泛的可能性 [23]，[24]，[24]，[25]。这项技术不仅有望增强现有应用程序，而且还能实现以前由于计算限制而无法实现的新应用程序。此外，3D GS 的显式场景表示提供对场景动态前所未有的控制，这在涉及复杂几何形状和不同光照条件的复杂场景中是一个关键因素 [26]，[27]。这种级别的控制和可编辑性，加上渲染过程的效率，使 3D GS 成为塑造相关领域未来发展的变革力量。

本文结构总结如图所示：问题表述、术语和相关研究领域；3D GS 的基本见解，包括使用 3D 高斯的新型视图合成和 3D GS 的优化细节；3D GS 产生重大影响的各种应用领域和任务，展示了其多功能性；性能比较和分析；有待进一步研究的未决问题并总结调查。

添加图片注释，不超过 140 字（可选）

3D GS [3] 代表了从隐式辐射场到显式辐射场的转变。它利用 3D 高斯函数作为灵活而高效的表示，充分利用了这两种方法的优势。这些高斯函数经过优化，可以准确表示场景，结合了基于神经网络的优化和显式结构化数据存储的优势。这种混合方法旨在实现高质量渲染，具有更快的训练速度和实时性能，尤其适用于复杂场景和高分辨率输出。

体表示不仅将目标和场景建模为表面，还将其建模为材料或空白空间体 [45]。这种方法可以更准确地渲染雾、烟或半透明材料等现象。光线行进是一种与体表示一起使用的技术，通过逐步追踪光线穿过体的路径来渲染图像 [15]，[16]。NeRF [1] 与体光线行进具有相同的精神，并引入了重要性采样和位置编码来提高合成图像的质量。虽然提供高质量的结果，但体光线行进的计算成本很高，这促使人们寻找更有效的方法，例如 3D GS。

基于点的渲染是一种使用点而不是传统多边形来可视化 3D 场景的技术。此方法对于渲染复杂、非结构化或稀疏几何数据特别有效。点可以通过可学习的神经描述子 [46]、[47] 等附加属性进行增强，并高效渲染 [48]、[49]，但这种方法可能会出现渲染中的洞或混叠效果等问题。3D GS [3] 通过使用各向异性高斯函数来扩展这一概念，以实现更连续、更连贯的场景表示。

考虑一个由（数百万个）优化 3D 高斯函数表示的场景。目标是根据指定的相机姿势生成图像。回想一下，NeRF 通过计算要求高的体光线行进、每个像素采样 3D 空间点来完成这项任务。这种范式难以进行高分辨率图像合成，无法实现实时渲染速度 [3]。与此形成鲜明对比的是，3D GS 首先将这些 3D 高斯函数投影到基于像素的图像平面上，这个过程称为“splatting”。之后，3D GS 对这些高斯函数进行排序并计算每个像素的值。从中可以看出，NeRF 和 3D GS 的渲染可以看作是彼此的逆过程。3D 高斯的定义，是 3D GS 中场景表示的最小元素。利用这些 3D 高斯函数进行可微分渲染。3D GS 中使用加速技术，这是快速渲染的关键。

如图所示 3D GS 前向过程：（a）splatting 步骤将 3D 高斯投影到图像空间。（b）3D GS 将图像分成多个不重叠的块，即tiles。（c）3D GS 复制覆盖多个tiles的高斯，为每个拷贝分配一个标识符，即tile ID。（d）通过渲染排序的高斯，可以获得tile内的所有像素。请注意，像素和tile的计算工作流程是独立的，可以并行完成。

添加图片注释，不超过 140 字（可选）

为了避免为每个像素推导高斯函数的成本计算，3D GS 将精度从像素级转移到patch级细节。具体来说，3D GS 最初将图像分成多个不重叠的patch，在原始论文 [3] 中称为“tiles”。每个tile包含 16×16 像素，如 [3] 中建议的那样。3D GS 进一步确定哪些tile与这些投影高斯函数相交。鉴于投影高斯函数可能覆盖多个tiles，一种合乎逻辑的方法是复制高斯函数，并为每个副本分配一个相关tiles的标识符（即tile ID）。
复制后，3D GS 将相应的tile ID 与从每个高斯的视图变换中获得的深度值相结合。这会产生一个未排序的字节列表，其中高位表示tile ID，低位表示深度。通过这样做，排序后的列表可直接用于渲染（即 alpha 合成）。值得强调的是，每个tile和像素的渲染都是独立进行的，这使得该过程非常适合并行计算。另一个好处是，每个tile的像素都可以访问公共共享内存并保持统一的读取顺序，从而能够以更高的效率并行执行 alpha 合成。在原始论文 [3] 的官方实现中，该框架将tile和像素的处理分别视为 CUDA 编程架构中的块（blocks）和线程。

简而言之，3D GS 在前向处理阶段引入了几种近似值，以提高计算效率，同时保持高标准的图像合成质量。

3D GS 的核心是一种优化过程，旨在构建一个丰富的 3D 高斯集合，以准确捕捉场景的本质，从而促进自由视点渲染。一方面，应该通过可微分渲染优化 3D 高斯的属性以适应给定场景的纹理。另一方面，能够很好地表示给定场景的 3D 高斯的数量是未知的。一种有前途的途径是让神经网络自动学习 3D 高斯的密度。优化每个高斯的属性，并控制高斯的密度。这两个过程在优化工作流程中是交错的。

3D GS 正在不少应用中产生重大影响，例如机器人技术、场景重建和表示、AI 生成内容、自动驾驶甚至其他科学学科。3D GS 的应用展示了其多功能性和彻底改变各个领域的潜力。

3D GS 存在一些需要克服的挑战：

• 数据高效的 3D GS 解决方案。从有限的数据点生成新视图和重建场景具有重要意义，特别是有可能以最少的输入增强真实感和用户体验。最近的进展探索了使用深度信息 [174]–[176]、密集概率分布 [177] 和像素到高斯映射 [178] 来促进这种能力。然而，在这一领域仍然迫切需要进一步探索。此外，3D GS 的一个显著问题是在观测数据不足的区域会出现伪影。这一挑战是辐射场渲染的一个普遍限制，其中稀疏数据通常会导致重建不准确。因此，在这些稀疏区域中开发用于数据插值或集成的新方法代表了未来研究的一条有希望的途径。

• 内存高效的 3D GS 解决方案。虽然 3D GS 表现出了卓越的能力，但其可扩展性带来了重大挑战，尤其是与基于 NeRF 的方法相比时。后者受益于仅存储学习的 MLP 参数的简单性。在计算和内存需求大幅增加的大规模场景管理背景下，这种可扩展性问题变得越来越严重。因此，迫切需要在训练阶段和模型存储阶段优化内存利用率。探索更高效的数据结构和研究先进的压缩技术是解决这些限制的有希望的途径 [179]–[182]。

• 高级渲染算法。3D GS 的当前渲染流水线非常简单，可以进一步优化。例如，简单的可见性算法可能会导致高斯深度/混合顺序的剧烈切换。这为未来的研究提供了一个重要的机会：实现更先进的渲染算法。这些改进的方法应该旨在更准确地模拟给定场景中光和材料特性的复杂相互作用[183]，[184]。一种有前途的方法，可能涉及将传统计算机图形学中既定的原理，吸收和适配到3D GS的特定环境中。在这方面值得注意的是，正在努力将增强渲染技术[185]-[188]或混合模型[189]集成到当前的3D GS计算框架中。此外，对逆向渲染及其应用的探索[190]，[191]为研究提供了沃土。

•优化和正则化。各向异性高斯虽然有利于表示复杂的几何形状，但会产生不良的视觉伪影（artifacts）。例如，那些大3D高斯，特别是在具有视图相关外观的区域中，可能会导致弹出伪影，其中视觉元素突然出现或消失，从而破坏沉浸感。 3D GS 的正则化和优化具有相当大的探索潜力。引入抗锯齿（anti-alising）可以减轻高斯深度和混合顺序的突然变化。优化算法的增强可能会更好地控制高斯 [192]、[193]。此外，将正则化纳入优化过程可能会加速收敛、平滑视觉噪声或提高图像质量 [176]。

• 网格重建中的 3D 高斯。3D GS 在网格重建中的潜力及其在体表征和面表征谱中的位置尚未得到充分探索。迫切需要研究如何将高斯基元应用于网格重建任务。这项探索可以弥合体渲染和传统基于面方法之间的差距，为新绘制技术和应用提供见解。关于基于 3D 高斯的网格提取和重建，有一些早期的探索 [194]–[196]。

• 为 3D GS 提供更多可能性。尽管 3D GS 具有巨大的潜力，但 3D GS 的全部应用范围仍未得到充分开发。一个有前途的探索途径是增强 3D 高斯的附加属性，例如语言属性 [197]–[199] 和物理属性 [200],[201]，以适应特定应用。此外，最近的研究已经开始揭示 3D GS 在多个域的能力，例如相机姿势估计 [202]、手与目标交互的捕捉 [203] 和不确定性的量化 [204]。