3D 高斯作为新视觉时代：综述

硅谷秋水

于 2024-07-30 02:07:37 发布

阅读量387

点赞数 6

分类专栏：计算机视觉机器学习人工智能文章标签： 3d 人工智能机器学习深度学习计算机视觉

本文链接：https://blog.csdn.net/yorkhunter/article/details/140784827

版权

人工智能同时被 3 个专栏收录

184 篇文章 0 订阅

订阅专栏

机器学习

177 篇文章 1 订阅

订阅专栏

计算机视觉

79 篇文章 0 订阅

订阅专栏

24年2月来自复旦和南洋理工的论文“3D Gaussian as a New Vision Era: a Survey ”。

3D 高斯splatting (3D-GS) 是计算机图形学领域的一项重大进步，它提供了明确的场景表示和新视图合成，无需依赖神经网络，例如神经辐射场 (NeRF)。该技术已在机器人、城市地图、自动导航和虚拟现实/增强现实等领域得到广泛应用，仅举几例。

3D-GS 提供了一种多功能且功能强大的方法，可以高效地渲染具有高细节水平的复杂场景 [Wu, 2023a, Cotton & Peyton, 2024]。通过将目标和表面表示为高斯集合，高斯splatting可以高效准确地表示几何和外观属性 [Guédon & Lepetit, 2023, Yu, 2023a]。3D-GS 通过提供更灵活和自适应的 3D 对象表示来克服体积渲染方法的局限性 [Kerbl et al., 2023]。此外，高斯溅射可以真实地渲染各种视觉效果，例如景深和柔和阴影，使其成为计算机图形学研究和应用中的有价值的工具 [Chung et al.，2023a]。

如图所示本综述的框架：首先从效率、真实性、成本和物理方面介绍 3DGS 的优化，然后全面回顾 3DGS 在重建、操作、感知、生成和人类应用方面的应用。

添加图片注释，不超过 140 字（可选）

高斯splatting辐射场 [Kerbl et al., 2023] 也称为 3D 高斯splatting (3DGS)，是一种基于显式辐射场的场景表示，它使用大量 3D 各向异性球表示辐射场，每个球使用 3D 高斯分布建模。更具体地说，每个各向异性球都有平均值 M 、协方差 Σ、不透明度 α 和球面谐波参数 C，用于建模视图相关颜色。为了进行正则化优化，协方差矩阵进一步分解为旋转矩阵 R 和缩放矩阵 S。这些矩阵进一步表示为四元数 r 和比例因子 s 。

对于此场景表示，视图渲染是通过点splatting [Yifan et al.，2019] 执行的。具体来说，首先将场景中的所有高斯球投影到 2D 图像平面上，并根据球谐函数参数计算其颜色。然后，对于最终图像的每个 16 × 16 像素块，与该块相交的投影高斯按深度排序。对于块中的每个像素，其颜色的计算按深度顺序对覆盖该像素所有的高斯不透明度和颜色进行 alpha 合成。

各种公开可用的数据集用于评估 3D-GS 在各种任务上的性能。下表概述了 3D-GS 在优化、重建、操作、生成、感知和人体方面的一些数据集。

添加图片注释，不超过 140 字（可选）

关于现存3D GS的方法分类如下所示：优化、重建、操作、生成、感知和虚拟人。

添加图片注释，不超过 140 字（可选）

尽管已经展示 3D Gaussian Splatting 的能力和效率，但在以下有希望的方向上仍然有进一步改进的空间（如图所示）：（a）使 3D-GS 更节省内存对于实时渲染至关重要；（b）渲染图像的质量可以进一步提高；（c）降低合成新视图的图像成本；（d）使 3D 高斯能够以可信的动态表示动态场景。

添加图片注释，不超过 140 字（可选）

3D-GS 在从新视角捕获和渲染 3D 场景方面被广泛采用，这可以归因于其出色的渲染速度和产生逼真结果的能力。与 NeRF 类似，3D-GS 中的表面网格提取（如图 a 所示）是一个基本但必不可少的方面。需要进一步研究以解决具有挑战性的场景，例如单目或少量镜头情况（如图 b 所示），这些场景在自动驾驶等实际应用中很常见。此外，3D-GS 的训练时间在几分钟内，可以实现实时渲染并有助于重建动态场景（如图 c 所示）。

添加图片注释，不超过 140 字（可选）

由于 3D-GS 的显式属性，它在编辑任务中具有很大的优势，因为每个 3D 高斯都是单独存在的（如图所示）。通过直接操作应用所需约束的 3D 高斯，可以轻松编辑 3D 场景。其中采用稀疏控制点和变形 MLP 来指导 3D 高斯动力学的说明。

添加图片注释，不超过 140 字（可选）

Fang [Fang, 2023] 提出了 GaussianEditor，用于使用 3D 高斯和文本指令精确编辑 3D 场景。第一步是提取与提供的文本指令相对应的感兴趣区域 (RoI) ，并将其与 3D 高斯对齐。然后利用该高斯 RoI 来控制编辑过程，从而实现细粒度的调整。

非刚体可以改变和变形，从而能够更真实地模拟软体、生物组织和流体。这些物体具有多种优势，包括提高真实性以及更好地描绘变形和行为 [Tretschk et al., 2021]。此外，这些模型可以实现多种效果，因为它们可以通过变形来响应外力和约束 [Lazova et al., 2023]。然而，非刚体也带来了一些挑战。它们的特点是复杂性，需要在编辑和模拟过程中仔细考虑变形、连续性和碰撞等因素。此外，非刚体的实时交互性能在应用中可能会受到限制，尤其是在处理大规模和复杂的非刚体时 [Xu & Harada, 2022]。

Huang [Huang & Yu, 2023] 提出 Point’n Move，它通过暴露区域修复（inpainting）实现了对场景目标的交互式操作。直观的目标选择和实时编辑增强了交互性。为了实现这一点，其利用了高斯splatting辐射场的显式性质和速度。显式表示公式允许开发双阶段自提示分割算法，其中 2D 提示点用于创建 3D 掩码。该算法有助于掩码细化和合并，最大限度地减少变化，为场景修复提供良好的初始化，并实现实时编辑而无需每次编辑训练。同时，Chen [Chen, 2023c] 介绍了用于 3D 编辑的 GaussianEditor，它采用高斯splatting来增强整个编辑过程的控制和效率。GaussianEditor 采用高斯语义跟踪来准确识别和定位要编辑的特定区域。然后，它利用分层高斯splatting (HGS) 在流动性和稳定性之间取得平衡，从而产生由随机原理指导的详细结果。此外，GaussianEditor 包含一种专门用于高斯splatting的 3D 修复算法，该算法简化了目标的移除和集成，并显著缩短编辑时间。

随着动态神经 3D 表征的引入，4D 场景重建领域取得了显著进展。这些进步极大地提高了捕捉和描绘动态场景的能力。然而，尽管取得了这些突破，但这些 4D 场景的交互式编辑仍然存在重大障碍。主要挑战在于保证时空一致性并在 4D 编辑过程中保持高质量，同时提供交互式和高级编辑功能。

由于扩散模型和 3D 表示方面取得了重大进展，从文本/图像提示生成 3D 资产现在已成为 AIGC 领域的一项有前途的任务。此外，借助 3D-GS 作为目标（如图 a）和场景（如图 b）的显式表示，可以实现快速甚至实时渲染。此外，一些研究侧重于改进分数蒸馏采样 (SDS) 流水线中固有的耗时优化过程（如图 c）。虽然 3D 生成已经显示出一些令人印象深刻的结果，但 4D 生成（如图 d）仍然是一个具有挑战性且尚未得到充分探索的课题。

添加图片注释，不超过 140 字（可选）

利用 3D-GS，3D 感知有可能增强开放词汇语义目标检测和定位（图 a）、3D 分割（图 b）、移动目标的跟踪（图 c）以及同步的定位和地图映射 (SLAM) 系统开发（图 d）。

添加图片注释，不超过 140 字（可选）

使用 NeRF 和 SDF 等隐神经表征学习虚拟人avatar需要较长的优化和渲染时间，并且难以生成质量令人满意的新型身体姿势。相比之下，实验证明，利用 3D 高斯表示可以提高训练和渲染速度，并提供对人体变形的明确控制。此外，3D 高斯方法中的正向蒙皮（forward skinning）避免了神经隐式表示中反向蒙皮（inverse skinning）中存在的对应歧义 [Jena et al., 2023]。

通常，基于 3D 高斯的方法首先使用 SMPL 模板初始化高斯，然后使用线性混合蒙皮 (LBS) 将表示变形到观察空间中。然后通过多视图（图 a）或单目视频（图 b）渲染和监督高斯。此外，一些方法专门用于重建人体头部avatar（图 c），而一些方法则专注于可泛化的流水线而不是针对每个主题的优化。

添加图片注释，不超过 140 字（可选）