3D 高斯Splatting：综述、技术、挑战和机遇

三谷秋水

已于 2024-10-31 17:28:58 修改

阅读量2.1k

点赞数 30

分类专栏：计算机视觉机器学习人工智能文章标签：深度学习机器学习计算机视觉

于 2024-08-01 00:01:25 首次发布

本文链接：https://blog.csdn.net/yorkhunter/article/details/140785403

版权

机器学习同时被 3 个专栏收录

557 篇文章

订阅专栏

计算机视觉

465 篇文章

订阅专栏

人工智能

426 篇文章

订阅专栏

24年7月来自南京大学、微软和Rochester大学的论文“3D Gaussian Splatting: Survey, Technologies, Challenges, and Opportunities”。

3D高斯splatting（3DGS）技术已成为一种新兴的突出技术，有可能成为3D表示的主流方法。它可以通过高效的训练将多视角图像有效地转换为显式的3D高斯表示，并实现新视角的实时渲染。本综述旨在从多个交叉角度分析现有的3DGS相关工作，包括相关任务、技术、挑战和机遇。其深入研究3DGS的优化、应用和扩展，并根据它们的重点或动机对它们进行分类。此外，总结和分类现有工作中确定的九种技术模块和相应的改进。基于这些分析，进一步研究各种任务中的共同挑战和技术，并提出潜在的研究机会。

尽管已经有多项研究总结了 3DGS 的最新进展 [1]，[2]，[3]，但该文系统地讨论和细粒度地分类 3DGS 的相关任务和技术，并分析它们之间的共性和挑战，如图所示。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-in7SebzV-1722441668621)(https://i-blog.csdnimg.cn/direct/82d68653a48944129c3789ae190164df.png)]

如图所示，本综述的结构如下：3D 高斯分层 (3DGS) 的背景和细节，其相对于神经隐式场和基于点的渲染的优势；如何优化 3DGS 以应对重建过程中遇到的挑战；3DGS 的应用及其在下游任务中的实现；3DGS 的扩展，增强其原有功能的方法；改进 3DGS 模块的各种技术；不同任务和技术之间的相互关系，及其核心挑战；未来研究的有希望的途径。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UyGqjGxS-1722441668623)(https://i-blog.csdnimg.cn/direct/67d2e35b37cd4c848a3d8a23533089f0.png)]

效率

效率是评价三维重建的核心指标之一，从存储、训练、渲染效率三个角度展开。

3DGS 需要数百万个不同的高斯基元来适应场景中的几何形状和外观，这会导致高存储开销：典型的室外场景重建通常需要几百兆到几千兆字节的显式存储空间。鉴于不同高斯基元的几何和外观属性可能非常相似，单独存储每个基元的属性可能会导致潜在的冗余。

提高训练效率对 3DGS 也很重要。DISTWAR [28] 引入了一种先进的技术，旨在加速基于光栅（raster）的可微分渲染应用中的原子操作，这些应用通常会在梯度计算期间遇到严重的瓶颈，因为原子更新量很大。通过利用原子更新中的 intra-warp 局部性并解决 warp 之间原子交通的变化，DISTWAR 使用寄存器实现了 SM 子核（sub-core）上 warp 级线程减少。此外，它还在 SM 和 L2 原子单元之间动态分配原子计算。这种纯软件实现采用现有的 warp 级原语，最大限度地减少指向 L2 的原子操作数量，从而显著提高吞吐量。

实时渲染是基于高斯方法的核心优势之一。一些提高存储效率的工作可以同时增强渲染性能，例如通过减少高斯基元的数量。

照片级真实感

照片级真实感也是一个值得关注的话题[31]。3DGS有望在各种场景中实现真实感渲染。一些[32]、[33]专注于在其原始设置中进行优化。

稀疏视图和泛化

稀疏视图设置下泛化和重建的挑战，长期以来一直引起学术界的广泛关注。隐式表示（如 NeRF）和显式表示（如 3DGS）都面临着实际应用的巨大障碍，因为需要针对每个场景进行重新训练，并且对密集样本输入的需求很高。

现有的可泛化的 3D 重建或新视图合成任务的目标，是利用大量辅助数据集来学习与场景无关的表示。在 NeRF [43]、[44]、[45] 的研究中，此过程通常涉及输入少量（1-10）具有相邻姿势的参考图像来推断目标图像。辐射场充当中介，有效地消除了显式场景重建的需要，并将任务转变为与场景无关的新视图合成问题。

相比之下，3DGS 的显式表示导致了大量研究集中于使用参考图像直接推断每个像素对应的高斯基元，随后使用这些基元从目标视图渲染图像。

为了实现这一点，早期的研究如 Splatter Image [46] 提出一种将图像转换为高斯属性图像的新范式，从而预测每个像素对应的高斯基元。然后将此范式扩展到多个参考图像以获得更好的渲染性能。

然而，与 NeRF 中的泛化努力不同，可泛化的 3DGS 的训练难度显著增加。诸如不可微分致密化之类的操作会对泛化训练过程产生负面影响。为了应对这些挑战，pixelSplat [47] 旨在从使用外极transformer结构 [44] 提取的特征中预测概率深度分布，并对该分布进行采样，替换不可微分的成分。

此外，基于多视图立体视觉 (MVS) 的方法在场景重建和新视图合成方面一直取得了显著的成功，尤其是在引入成本体后，这增强了网络的空间理解。与 MVSNeRF [48] 中的方法类似，MVSplat [49] 提出使用 3D 空间中的平面扫描来表示成本体，并预测稀疏参考输入中的深度，从而精确定位高斯基元的中心。这种方法为新视图合成提供了宝贵的几何线索。

从稀疏输入进行重建面临着巨大的挑战，其中 3DGS 的方法与 NeRF 的方法基本类似，旨在开发新的正则化策略并整合补充信息，例如深度数据。

作为三维表示的重要技术，3DGS 可以进一步扩展更多功能，如图所示：包括动态 3DGS 图（a）、3DGS 的表面表示图（c）、可编辑 3DGS 图（b）、具有语义理解的 3DGS 图（d）和基于 3DGS 的物理模拟图（e）。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xkUkJwgy-1722441668624)(https://i-blog.csdnimg.cn/direct/6a97bd69f1cb469b9ab530687c07dab3.png)]

动态 3DGS 的研究最近引起了研究人员的极大关注。动态场景的重建超越了静态场景重建的局限性，可以有效地应用于人体运动捕捉和自动驾驶模拟等领域。与静态 3DGS 不同，动态 3DGS 不仅需要考虑空间维度的一致性，还需要考虑时间维度的一致性，确保随时间变化的连续性和平滑性。根据不同的重建输入，将它们分为多视角视频和单目视频。

尽管 3DGS 能够实现高度逼真的渲染，但提取表面表示仍然具有挑战性。优化过程之后，生成的表示通常缺乏有序结构，与实际表面的对应性不佳。然而，基于网格的表示仍然是许多工作流程中的首选，因为它们允许使用强大的工具进行编辑、雕刻、动画和重新照明。

3DGS 具有实时渲染、复杂场景表示和明确表示等优势，自然引起了专注于 3DGS 编辑的研究人员的极大关注。不幸的是，当前可编辑的 3DGS方法通常缺乏精确的训练监督，这对编辑构成了重大挑战。

赋予3DGS语义理解能力，可以将二维语义模型拓展到三维空间，增强模型在三维环境下的理解能力，可应用于三维检测、分割、编辑等多种任务。

基于“所见，即所模拟”的理念，PhysGaussian [139] 重建静态 3DGS 作为要模拟的场景离散化，然后结合连续力学理论和物质点法 (MPM) [186] 求解器赋予 3DGS 物理属性。为了稳定基于旋转的变化外观并将粒子（particles）填充到空内部区域，PhysGaussian 提出了一种不断演变朝向和内部填充策略。

如图所示，3DGS 大致可分为以下几个阶段：初始化、属性优化、分层、正则化、训练策略、自适应控制和后处理。此外，一些同时进行的工作旨在整合补充信息和表示，从而增强 3DGS 的能力。这些技术改进不仅提高了原始 3DGS 的渲染性能，而且还解决了衍生作品中的特定任务。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yEJ90Iqx-1722441668624)(https://i-blog.csdnimg.cn/direct/730fc5db86c14468808d8c8c66106de4.png)]

如图是属性扩展策略概览：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pdqy50HP-1722441668625)(https://i-blog.csdnimg.cn/direct/221c40dbb897466ca96e895fccbb0ad2.png)]

如图是Splatting的修正技术：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3pq117Fx-1722441668625)(https://i-blog.csdnimg.cn/direct/e32c39a22748441ab76f3d3eb5a74e50.png)]

如图是正则化策略改进的概览：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iJ5LJAdS-1722441668625)(https://i-blog.csdnimg.cn/direct/9de485d220bb4f449355497632f2b60d.png)]

训练策略分为多阶段训练策略和端到端训练策略，以适用于不同的任务。多阶段训练策略是一种常见的训练范式，通常涉及由粗到精的重建。它广泛用于欠确定任务，例如 AIGC、动态 3DGS 构建和 SLAM。端到端的训练策略往往效率更高，可以应用于更广泛的下游任务。如图描述了一些典型的工作：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qyMzHBHV-1722441668626)(https://i-blog.csdnimg.cn/direct/5ee1e3d883ab48f78385c4417caf6be2.png)]

3DGS 的自适应控制是调节高斯基元数量的重要过程，包括克隆、分裂和剪枝。

预训练高斯的后处理策略非常重要，因为它们可以提高 3DGS 的原始效率和性能。常见的后处理通常通过不同的优化策略来改进高斯表示。
3D表示的可转换性，使得3DGS与其他表示的融合变得十分容易，这类工作往往利用其他表示的优点来改进原有的3DGS。