CVPR'24商汤开源！3DGS再进化，可控的3D编辑！-CSDN博客

本文链接：https://blog.csdn.net/weixin_46788581/article/details/138738412

点击下方卡片，关注「计算机视觉工坊」公众号
选择星标，干货第一时间送达

作者：Yiwen Chen | 编辑：计算机视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

扫描下方二维码，加入3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 读者理解

本文介绍了一种基于高斯喷涂的创新3 编辑算法 GaussianEditor，通过高效的高斯语义跟踪和分层高斯喷涂技术，实现了对编辑区域的精确控制和稳定性。作者还提出了针对高斯喷涂的 3D 补全算法，极大地简化了对象的移除和集成过程，大幅提高了编辑效率。文章还对算法进行了详细的实验和对比分析，展示了其在编辑质量和可控性方面的优势。总体而言，这项研究对于推动 3D 编辑技术的发展具有重要意义，为未来的相关研究提供了有价值的参考和启示。

1.导读

本文介绍了一种名为GaussianEditor的创新3D编辑算法，旨在提高对复杂场景的编辑灵活性和速度。传统的3D编辑方法（如网格和点云）在准确渲染复杂场景方面存在局限性，而隐式3D表示（如NeRF）虽然能有效渲染复杂场景，但处理速度慢且对特定区域的控制有限。为了克服这些挑战，GaussianEditor基于Gaussian Splatting（GS）提出了一种新的3D表示，通过高斯语义跟踪实现了对高斯飞溅的精确控制。此外，还提出了分层高斯飞溅（HGS）来稳定地生成精细结果，特别适用于处理高度随机的生成引导。论文还设计了一种针对高斯飞溅的3D修补算法，可快速移除和添加对象。通过实验验证，GaussianEditor在编辑控制、效率和速度等方面表现优越，是3D编辑领域的重大进步。

本文的贡献可以总结为四个方面：

引入了高斯语义跟踪，实现了更详细和有效的编辑控制。
提出了分层高斯飞溅（HGS），一种新颖的GS表示，能够在高度随机的生成引导下更稳定地收敛到精细的结果。
专门为高斯飞溅设计了一个3D修补算法，可以快速删除和添加对象。
广泛的实验表明，我们的方法在效率、速度和可控性方面超过了以前的3D编辑方法。

2 准备

2.1 3D高斯飞溅

本节介绍了作者提出的VoCo方法的整体框架和方法细节。VoCo框架包含两个主要部分：上下文位置预测分支和正则化分支。预测分支用于预测不同裁剪体积之间的上下文位置。具体来说，给定一个输入体积，首先将其裁剪成不重叠的基础体积，这些基础体积覆盖了整个输入体积。然后，随机裁剪一个体积，并使用典型的骨干（CNN或Transformer）将其转换为高维特征空间。作者的目标是预测随机裁剪的体积与基础体积之间的上下文位置。与先前的工作不同，作者提出通过体积对比来建立这个目标，而不是像之前的作品一样训练一个线性分类器来预测位置。作者设计了一个损失函数Lpred来监督最终的预测。此外，作者进一步使用一个损失函数Lreg来通过增大不同基础之间的距离来正则化来自不同基础的特征差异，旨在学习更具有区分性的类别分配。

2.2 基于扩散的编辑引导

这一部分介绍了基于扩散的编辑引导方法在3D编辑中的应用。近年来，将2D扩散过程拓展到3D并在3D编辑领域广泛应用取得了许多进展。这些工作大致可以分为两类：一类是通过将当前3D模型的噪声渲染与其他条件一起馈入2D扩散模型来引导模型更新方向；另一类是基于给定的多视图渲染提示对3D模型进行2D编辑。本文利用高斯飞溅的显式表示来增强3D编辑，直接采用了上述两种引导方法。对于2D扩散先验中的编辑损失，统一将其表示为LEdit = D(Θ; p, e)。

3 方法

本部分介绍了在高斯飞溅（GS）上进行3D编辑的方法。任务是给定一个提示y和由3D高斯表示的3D场景，目标是实现一个编辑后的3DGSΘy，它与提示y的规格相符或符合规格。为了实现这一目标，引入了高斯语义跟踪和分层高斯飞溅（HGS）表示方法。高斯语义跟踪使得在GS内进行精确分割和跟踪成为可能，从而促进了可控的编辑操作。HGS表示对生成引导中的随机性更具鲁棒性，并且更擅长适应各种编辑场景。此外，还设计了专门针对GS的3D修补算法，包括对象的移除和添加。

3.1 高斯语义跟踪

在高斯飞溅（GS）上进行3D编辑时，传统方法使用静态的2D或3D掩码来限制编辑区域，但随着训练进行，这种方法会变得不准确或无效。本文提出了高斯语义跟踪，通过给每个高斯点分配语义标签，实现了在3D场景中进行精确分割和跟踪，从而使编辑操作更加可控。与标准GS相比，分层高斯飞溅（HGS）表示对生成引导中的随机性更具鲁棒性，更适合应对各种编辑场景。高斯语义跟踪使得每个高斯的类别在训练过程中持续跟踪，能够自适应其属性和数量的变化。通过高斯语义跟踪，可以更精确地编辑复杂场景中的小对象，从而加快了编辑过程的速度。

3.2 分层高斯飞溅

分层高斯飞溅（HGS）是一种用于生成和编辑3D场景的结构化高斯表示方法。它将高斯飞溅（GS）分为不同的世代，根据生成特定高斯点的致密化轮次进行分类。在训练过程中，对于编辑，生成的每一轮中产生的点被标记为相应的世代。然后，对不同世代的高斯施加不同的约束，控制它们的灵活性。通过使用锚点损失来执行这些约束，确保高斯不会偏离其各自的锚点状态。HGS的设计可以防止GS在面对随机损失时过度灵活，并在稳定的几何形态下进行训练。这种方法可以有效地满足各种编辑需求，并提供更快速、更可控的编辑操作。

3.3 3D修复

在3D编辑中，对象的删除和合并是重要的任务。对于对象的删除，作者使用2D修补技术来填充被删除对象的空白区域，以避免产生伪影。然后，使用KNN算法识别与被删除对象最接近的高斯，并生成精细的掩模来表示对象的界面区域，从而有效地进行对象删除。这个过程通常只需要两分钟。对于对象的合并，首先生成一个2D修补图像，然后将前景对象从中分割出来，转换为粗糙的3D网格，并使用分层高斯飞溅（HGS）进行细化。最后，通过对齐深度图来将修补的对象与原始3D场景合并，整个过程大约需要5分钟。这些方法使得3D编辑变得更加高效和可控。

4 实验

实验部分主要围绕作者提出的高斯编辑器进行了详细的实验设计和结果展示，以下是实验的主要内容：

实现细节和实验设置：作者使用了高度优化的渲染器实现进行高斯渲染，并基于Threestudio构建了他们的实现。所有原始的3D高斯都是使用文献中描述的方法进行训练的。实验在单个RTX A6000 GPU上进行。摄像机姿态使用了最初用于重建的多视图图像数据集的子集。编辑大型场景时，选择了一组紧密环绕分割对象的摄像机姿态，以提高渲染中对象的分辨率，从而增强编辑过程的有效性。编辑过程通常涉及500-1000步的优化，总共约需要5-10分钟。关于对象合并的3D修复，根据情况，生成3D网格和将其转换为3D高斯并进行细化的过程大约需要3分钟，两个高斯的组合过程少于1秒。
定性比较：在定性比较方面，作者展示了高斯编辑器在编辑质量和可控性方面优于其他方法。通过使用语义跟踪，作者可以将编辑区域限制在所需区域内，从而提高了编辑的精确度和可控性。
定量比较：作者进行了用户研究和CLIP方向相似性的定量比较。结果显示，高斯编辑器在用户研究中表现出色，并且在CLIP方向相似性方面也表现优异。与此同时，作者的方法通常只需要5到10分钟来完成对场景的编辑，而Instruct-Nerf2Nerf通常需要超过30分钟。
消融研究：作者进行了关于分层高斯喷涂（HGS）和语义跟踪的消融实验。结果表明，HGS可以有效地限制高斯在旧一代中的移动性，从而确保整个场景不会表现出过度的流动性。而语义跟踪则帮助高斯编辑器在不限制编辑区域的扩展性的同时，限制编辑到指定区域。

5 总结

GaussianEditor 是一种基于高斯喷涂的创新 3D 编辑算法，旨在提高控制和效率。该方法利用高斯语义跟踪精确定位编辑区域，再结合分层高斯喷涂（HGS）以在随机引导下实现详细结果。此外，还开发了一种专门针对高斯喷涂的 3D 补全算法，简化了对象的移除和集成，大幅减少了编辑时间。然而，与基于 2D 扩散模型的先前工作类似，GaussianEditor 仍受到当前 2D 扩散模型在某些复杂提示下提供指导方面的限制。

6. 参考

[1]GaussianEditor: Swift and Controllable 3D Editing with Gaussian Splatting

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

▲长按扫码添加助理

3D视觉学习知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括：星球视频课程近20门（价值超6000）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉课程官网：www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。

▲长按扫码学习3D视觉精品课程

3D视觉相关硬件

图片	说明	名称
	硬件+源码+视频教程	精迅V1(科研级)）单目/双目3D结构光扫描仪
	硬件+源码+视频教程	深迅V13D线结构光三维扫描仪
	硬件+源码+视频教程	御风250无人机(基于PX4)
	硬件+源码	工坊智能ROS小车
	配套标定源码	高精度标定板(玻璃or大理石)
添加微信:cv3d007或者QYong2014 咨询更多