51c视觉~3D~合集1_谢国洋-CSDN博客

本文链接：https://blog.csdn.net/weixin_49587977/article/details/144042364

我自己的原文哦~ https://blog.51cto.com/whaosoft/12536281

#UltrAvatar

革命性突破！UltrAvatar: 逼真的3D虚拟可驱动人物生成，纹理引导生成打造极致完美

在数字化时代迅速演进的今日，OPPO美国研究中心和西湖大学的研究者们带来了一项革命性的技术——UltrAvatar。这项研究不仅缩小了虚拟与现实体验之间的差距，更是在3D虚拟人像生成领域迈出了重要的一步。

研究团队通过大量实验，展示了UltrAvatar方法的有效性和鲁棒性，其性能在多个实验中都大幅超越了现有最先进的方法。通过UltrAvatar生成的虚拟形象，不仅拥有真实材质色彩与纹理，在高频几何细节上呈现清晰锐利的效果，在生成端可以生成多样化高质量的可驱动虚拟人，为用户带来了前所未有的3D虚拟体验。

01 背景简介

三维可驱动虚拟人的生成在计算机视觉和计算机图形学领域都具有着重大的意义。深度学习的最新进展显著提升了虚拟人生成的逼真度。虽然多视图三维重建方法（如Multi-View Stereo和 Structure from Motion）能够通过不同角度捕捉多张图像生成头像，但由于繁琐的输入、受限的视角、不必要的光照干扰和较差的图像质量，由用户拍摄的单张图像或从文本描述产出的图像来生成逼真的三维头像变得极具挑战性。

02 方法架构

UltrAvatar技术能够将文本描述或单一图像作为输入，生成具有物理基础渲染（PBR）纹理的真实可驱动的3D虚拟形象，这些虚拟形象在质量、多样性和保真度上均达到了卓越的水平。不仅适配多种物理渲染引擎，还克服了以往技术在面部细节上过度平滑以及多样性不足的缺陷，实现了高质量的细节表现与真实感。

UltrAvatar首先采用了一种全新扩散生产的方法，提取了真实的散射色彩，去除不必要的光照效应，从而生成真实皮肤材质颜色，使得生成的形象在不同光照条件下呈现出自然的质感。此外，UltrAvatar还提出了一种基于两种梯度引导的扩散模型，用于生成PBR纹理，使得渲染的虚拟形象呈现丰富的特征与纹理细节，同时也更好地与3D网格几何形状对齐。

03 实验结果

01文本生成头像

我们将文本信息输入通用扩散模型来创建二维人脸图像。结果显示，重建的人物不仅保持了特征ID一致性，还具备高保真的PBR 纹理，与3D网格精准对齐，呈现出极高的逼真度。为验证生成纹理的质量，我们在不同光照的环境下对每个生成虚拟人进行了重打光渲染，以展示其真实质感。

，时长00:06

重打光后的结果

，时长00:07

名人头像生成结果

我们可以根据名人的名字生成其高质量的三维虚拟形象。

，时长00:06

非特定领域的角色生成

我们还能够生成一些非特定领域的卡通形象和非人类形象。

，时长00:05

特征编辑与驱动

生成的虚拟人高频细节由高精度PBR纹理表示，并依附于简易的3DMM网格模型，因此我们可以通过改变表情和姿势参数为来驱动虚拟人生成动画。此外，我们还可以使用AGT- DM中的文本输入的能力进行一些纹理编辑，从而进一步丰富虚拟人的外观表现力。

结论

在数字娱乐、虚拟现实、教育培训、远程沟通等领域，UltrAvatar开辟了新的可能性，使用户能够更加自由地创造和体验可驱动的3D虚拟形象。通过Text2Avatar、Image2Avatar的形式，直接生成高分辨率的虚拟人以及物理PBR材质加以驱动，达到以假乱真的视频效果。为在电影中，以低廉的成本，实时生成和驱动需要的人物或非人物角色，铺平了道路，推动了数字角色生成的创新发展。

OPPO美国研究中心和西湖大学的这一成果不仅体现了在3D虚拟形象创造领域的技术领先性，也为我们呈现了一个更加真实和引人入胜的虚拟世界。我们期待看到这一技术的进一步发展和广泛应用。UltrAvatar——打造真实的数字化未来，今日已来。

项目网站：https://mingjoe.github.io/UltrAvatar/

#CityGaussian

VR/AR时代的城市重建新标杆

中科院自动化所张兆翔团队提出了一种全新的大规模3D场景重建算法CityGaussian，能够基于无人机航拍数据对小至建筑物，大至2.5平方千米的城市进行逼真的三维重建。

1. 概览

中科院提出了一种基于全新的基于3DGS的大规模场景重建算法CityGaussian，不仅能够基于无人机航拍数据对小至建筑物，大至2.5平方千米的城市进行逼真的三维重建，还能借助其提出的LoD技术实现在重建出的城市中以1080P以上的高清分辨率进行实时游览，这将给地图场景预览、VR及AR带来全新的使用体验。目前代码已开源，欢迎来代码仓库点star

GitHub Repository:

https://github.com/DekuLiuTesla/CityGaussian

Project Page:

https://dekuliutesla.github.io/citygs/

Paper: https://arxiv.org/pdf/2404.01133

2. 研究背景与亮点

3D大规模场景重建作为AR/VR、空中救援、智慧城市和自动驾驶的关键技术，在近几十年间已经得到了学术界和工业界的广泛关注。然而传统的基于神经辐射场（NeRF）的隐式表征算法在大规模场景下细节还原度较低，训练以及渲染速度慢，严重影响了重建场景中的游览体验。而新近提出的显式表征算法3D Gaussian Splatting（3DGS）以其可编辑性以及高效渲染为场景重建带来了新的可能。然而，以显式的3DGS表征大规模场景往往意味着产生数以百万计的高斯点，这不仅导致训练时的显存溢出，也大大拖慢了渲染速度，特别是在希望以大的视野范围俯瞰城市的情况下。

为了解决上述问题，中科院自动化所张兆翔团队提出了一种全新的大规模3D场景重建算法CityGaussian。它一方面提出了一种高效的模型与数据划分方案，并基于分治策略进行模型的并行训练与整合。另一方面，它实现了针对3DGS的多细节层次方案（Level of Details, LoD），在实际渲染时对近距离的场景使用精细的细节层次，而远距离的区域则使用较为粗糙的细节层次，从而大大减少渲染时实际所需的高斯点数量，从而极大降低大场景下的渲染延迟。这一算法在公开的数据集上达到了领先现有算法的渲染质量与速度表现。

3. 高效并行训练，有效降低开销

训练阶段：训练阶段的流程如下图所示。算法首先训练一个体量较小、渲染质量较为粗糙的3DGS表征作为对场景的先验。以此为基础，算法在压缩后的坐标空间将高斯点划分为一系列互不重叠的区块。每个区块则根据其与训练样本的投影关系和空间坐标关系决定分配哪些数据用于训练。不同的子块随后可以并行训练，并行训练的结果在融合后即可得到整个场景的3DGS表征。

4. 多细节层次渲染，大场景丝滑浏览

渲染阶段的流程如下图所示。首先算法借助LightGaussian对训练结果进行压缩，不同压缩率分别对应不同的细节层次。实际渲染时，算法以训练阶段划分的区块为单位，快速判断哪些区块处在视锥范围内，以及区块离相机中心的距离。根据这一距离，算法能够进一步地计算出对应的奈奎斯特采样频率，并得到高斯球平均尺度与之最匹配的细节层级进行表征。这样一来，距离较远、投影面积较少的区块可以使用压缩率更大的版本进行表征，从而减少渲染所需使用GS点数量，提高实时性。

5. 多角度实验评估，性能达到SOTA

可视化的渲染效果比较如下图所示，可以看到无论在实际采集的无人机数据还是仿真环境下采集的数据上，CityGaussian都能显著地改善渲染质量，提高细节的还原程度，带来更加逼真的游览体验。

此外，文章在MatrixCity这一大规模数据集上对LoD的有效性进行了验证。从Table 2中可以看到，LoD技术在保证逼真的渲染效果的同时，将渲染速度从21.6FPS提高到60.1FPS，同时渲染质量仅次于LoD2，从而很好地平衡了渲染质量和实时性。Figure 6则展现了相机从不同高度俯瞰重建出的城市时的速度变化关系。可以看到，即便在最坏情况下，所提出的LoD算法也能保持在25FPS以上的渲染速度，保证了不同视角范围的丝滑切换。

6. 结语

在以上工作的基础上，CityGaussian原班团队推出了CityGaussianV2，进一步提升了几何精度以及训练效率，代码即将开源，详情欢迎参考Project Page:

https://dekuliutesla.github.io/CityGaussianV2

#DiffGS

首个通用三维高斯生成模型

在本文中，作者第一次实现了原生的三维高斯生成式模型，无需对高斯数据进行体素化等预处理操作，并可以生成任意数量的3DGS。DiffGS同时是第一个通用三维高斯生成模型，支持图生3DGS、文生3DGS、三维高斯补全、点云到3DGS的生成等任务。

清华大学近期的工作：DiffGS: Functional 3D Gaussian Splatting Diffusion 被接收于 NeurIPS 2024。论文代码已开源：

论文地址：https://arxiv.org/abs/2410.19657

项目主页：https://junshengzhou.github.io/DiffGS

代码地址：https://github.com/weiqi-zhang/DiffGS

作者提出使用函数化方式来将离散的、非结构化的三维高斯表征解耦地表示为三个三维高斯函数，包括高斯概率函数、高斯颜色函数和高斯变换函数。在这三个连续的三维高斯函数上，可以训练一个标准的VAE + LDM (Variational Auto-encoder + Latent Diffusion Model) 的扩散生成式模型来生成这些函数。最后通过高斯提取算法获得最终生成的高斯。

DiffGS 网络框架：

DiffGS 包括一个Gaussian VAE以及一个Gaussian LDM。首先训练Gaussian VAE来构建一个可以编码三维高斯并解码出三维高斯函数的隐特征空间，在这个隐特征的基础上训练一个Diffusion模型来实现三维高斯的生成。同时可以引入各种condition，如文本、图像和残缺高斯，来实现可控的三维生成。

高斯提取算法：

DiffGS设计了一个基于Octree的优化式高斯提取算法，以从生成的高斯概率函数、颜色函数和变换函数中恢复出高斯模型。该算法的目标类似于Marching Cubes算法从SDF中提取表面的过程。

下游应用：

DiffGS可以实现多个3DGS生成任务，如Unconditional Generation，Text-to-3DGS Generation，Image-to-3DGS Generation，Gaussian Completion，Point-to-Gaussian Generation。

无条件三维高斯生成

与现有SOTA方法的可视化以及量化结果对比：

图/文生三维高斯

给定文本，比如“a grey chair has two L type legs”， DiffGS能够生成对应的三维高斯模型

三维高斯补全

DiffGS 是首个能够实现三维高斯补全的模型。给定残缺的模型，DiffGS能够预测完整的三维高斯模型

点云生成三维高斯

DiffGS 还可以支持基于点云的三维高斯生成任务。只需要将Gaussian VAE的输入修改为三维点云即可以实现该任务

#从架构角度重新审视3D异常检测的多模态融合

本文从架构角度重新审视了3D异常检测的多模态融合问题，提出了3D-ADNAS方法，旨在通过神经架构搜索同时优化多模态融合策略和模态特定模块，以提高3D异常检测的性能。

近日，第39届人工智能领域顶级会议AAAI 2025 （CCF A）论文录用发榜，课题组论文 “Revisiting Multimodal Fusion for 3D Anomaly Detection from An Architectural Perspective”被录用（龙开放，谢国洋，马连博*，刘佳奇，陆智超），东北大学软件学院为第一单位，马连博教授为通讯作者，论文为马连博教授指导的博士研究生工作。AAAI是人工智能领域的国际顶级会议之一，也是中国计算机学会（CCF）分类的A类会议。AAAI每年召开一届，近年来投稿量逐年增加。据其官网数据显示，2025年度AAAI总投稿量12,957份，最终有3,032篇论文被接收，接收率约为23.4%，被录用的论文主题涵盖了人工智能领域的各项前沿工作。

Kaifang Long, Guoyang Xie, Lianbo Ma*, Jiaqi Liu, Zhichao Lu. "Revisiting Multimodal Fusion for 3D Anomaly Detection from An Architectural Perspective." Accepted by AAAI-25. (CCF A)

从架构视角审视 3D 异常检测的多模态融合方案

工业异常检测有望像人工检查员一样准确地找出正常样本和异常之间的差异.现有的促进 3D 异常检测 (3D-AD) 多模态融合的努力主要集中在设计更有效的多模态融合策略上。然而，很少有人关注分析多模态融合架构 (拓扑) 设计对 3D-AD 的贡献。在本文中，我们旨在弥合这一空白，并系统地研究多模态融合架构设计对 3D-AD 的影响。这项工作考虑了模块内融合级别的多模态融合架构设计，即独立的模态特定模块，涉及具有特定融合操作的早期、中期或晚期多模态特征，以及模块间融合级别的多模态融合架构设计，即融合这些模块的策略。在这两种情况下，我们首先通过理论和实验探索架构设计如何影响 3D-AD 来获得见解。然后，我们扩展 SOTA 神经架构搜索 (NAS) 范式，并首次提出 3D-ADNAS 来同时搜索多模态融合策略和模态特定模块。

图1：3D-ADNAS 的总体框架

不同融合模式对3D-AD性能影响的直观展示

图一展示了在MVTec 3D-AD数据集上不同的融合模式，即早期融合、中期融合、晚期融合和混合融合，对3D-AD性能的影响。单独使用中期特征融合比早期或晚期特征融合效果更佳，而单独使用晚期特征会降低 3D-AD 性能。但是，当与其他融合策略结合时，晚期特征融合可以持续提高大多数 3D-AD 任务的性能。

图2：融合模式的选择对3D-AD性能的影响

不同特征选择对3D-AD性能影响的直观展示

图三展示了在MVTec 3D-AD数据集上不同的特征选择对3D-AD性能的影响。通常来说，选择前两层中间特征进行融合对 3D-AD 训练更有利，而不是选择标准 3D-AD 中使用的所有中间特征

图3：融合特征的选择对3D-AD性能的影响

实验结果

表一至表三展示了在Eyecandies数据集和MVTec 3D-AD数据集上的实验性能。结果表明，与最新的方法相比，我们的方法达到了最好的性能。

#3DGS（3D Gaussian Splatting）部署验证+个人数据训练

python3.10 +cuda12.3+pytorch2.2.1可以运行。

以下过程供大家参考！

部署

硬件情况

GPU：4090

软件情况

cudatoolkit

visual studio 2022

win11

conda

执行部署

按照以下步骤依次操作。

git clone https://github.com/graphdeco-inria/gaussian-splatting --recursive
cd gaussian-splatting
conda create -n gaussian_splatting python=3.10
conda activate gaussian_splatting
conda install -c conda-forge vs2022_win-64
# 安装pytorch 2.2.1版本,cuda 12.1
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
SET DISTUTILS_USE_SDK=1
pip install submodules\diff-gaussian-rasterization
pip install submodules\simple-knn
pip install plyfile
pip install tqdm

参考到的几个issue截图

下载数据

按需下载 T&T+DB COLMAP (650MB) | Pre-trained Models (14 GB) | Viewers for Windows (60MB) | Evaluation Images (7 GB) 等数据。

T&T+DB COLMAP (650MB) ：包含了4个场景的图片，并已经通过convert.py进行colmap转换。可以直接用来做train.py训练测试。

Pre-trained Models (14 GB)：论文中提到的各种场景的预训练模型。可以通过viewer查看效果

Viewers for Windows (60MB)：作者已经编译好的SIBR点云查看工具，不需要按照教程再编译。

Evaluation Images (7 GB) ：这是项目训练过程中，同一批数据在不同的算法之下训练出来的场景数据对比图片。

colmap下载（如需使用自己的图片训练）：可以从照片集合中进行三维重建，可以识别运动结构 (Structure-from-Motion, SfM)、也可以进行多视图立体 (Multi-View Stereo, MVS)构建。

ImageMagick下载（如需针对自己的图片进行裁剪）：

训练

使用刚才下载的T&T+DB COLMAP (650MB) 进行训练测试，验证环境是否正常。

运行以下代码

# 示例代码
python train.py -s <path to COLMAP or NeRF Synthetic dataset> --iterations #迭代次数
# 实际代码
python train.py -s E:\3dgs-data\tandt_db\db\playroom --iterations 6000

注意：如果不指定输出目录，默认存储在项目根的output文件中

训练过程查看Network Viewer

使用下载的Viewers for Windows (60MB)中的remoteGuassian查看。它会自动识别训练过程中开放的IP端口并连接。

APP地址：SIBR安装目录下的/bin/SIBR_remoteGaussian_app

执行命令：

# 进入目录的bin文件夹，执行exe文件。或者双击执行
cd XXXX\viewers\bin>
.\SIBR_remoteGaussian_app.exe

模型输出

训练完毕后，训练好的模型会输出在output文件夹（或者指定的文件夹下）

训练结果点云查看Real-Time Viewer

进入下载好的Viewers for Windows (60MB)的bin目录，右键在终端中打开，然后输入：

# 进入目录的bin文件夹，执行exe文件。或者双击执行
cd XXXX\viewers\bin>
.\SIBR_gaussianViewer_app.exe  -m D:\3DGS\gaussian-splatting\output\ad910f74-4
# -m是指定模型存放的文件夹

下图是我通过命令查看的预训练文件Pre-trained Models (14 GB)的其中一个场景。（每个文件都是一个预训练的场景）

SIBR镜头操作命令

通过W, A, S, D, Q, E 移动相机位置（前后左右高低），通过I, K, J, L, U, O 移动相机角度（左转/右转/下转/上转/顺时针转/逆时针转）。

模型评估Evaluation

训练过程中分段保存结果

python train.py -s <path to COLMAP or NeRF Synthetic dataset> --eval # Train with train/test split

使用自己的图片数据训练准备数据

我网上看到很多人直接使用手机拍摄的视频抽帧形成的照片，复现效果也不错。

大家可以尝试用手机拍摄试试看。

视频图像按帧输出图片工具

如果是从视频中抽帧形成训练图片，需要使用工具，推荐使用ffmpeg

ffmpeg下载

https://www.gyan.dev/ffmpeg/builds/

下载ffmpeg-git-full.7即可，下载完成后如果要命令行使用ffmpeg，则需要将目录加入系统环境PATH路径中。

ffmpeg命令

执行以下语句，可将视频切分为图片

ffmpeg -i input.mp4 -vf "setpts=0.2*PTS" input/input_%4d.jpg
# -i input.mp4：指定输入视频文件为 input.mp4。

# -vf "setpts=0.2*PTS"：这是一个视频过滤器选项，其中 setpts 指令用来设置帧的时间戳（Presentation TimeStamps）。这里的表达式 0.2*PTS 表示将当前帧的时间戳乘以0.2，这意味着抽取出来的帧之间的间隔被拉长了5倍，所以生成的图像序列将以视频原始速度的五分之一进行播放。

# input/input_%4d.jpg：这是输出文件格式及路径，其中 %4d 是一个格式化占位符，它会被自增的整数所替换，确保每个输出文件名是唯一的。例如，输出的第一帧将会被保存为 input/input_0001.jpg，第二帧为 input/input_0002.jpg，依此类推。同时，输出目录被指定为 input/ 目录下。

数据转换

使用官方提供的reverter转换器，完成图像数据转换。转换需要用到COLMAP和ImageMagick（如需）

工具安装COLMAP

Releases · colmap/colmap

从github下载最新的colmap

将安装路径加入环境变量，环境变量添加后，需要打卡新的终端之后，colmap才能被找到，convert语句才能生效。

工具安装ImageMagick

下载后，按需使用。

执行图像转换convert.py

python convert.py -s <location> [--resize] #If not resizing, ImageMagick is not needed

使用colmap命令直接转换数据，不使用convert（如需）

可能是因为我自己网上找的视频质量不行，导致使用convert.py进行转换时，只有两张照片有效（249张照片，convert执行完毕后，image文件夹中只有两张），所以网上找了别人的教程，直接使用clomap进行操作，但是colmap的这个命令执行时间太长了，249张照片执行了1个多小时。应该是这个命令做了其他3dgs不需要的操作。

colmap automatic_reconstructor --workspace_path . --image_path ./images --sparse 1 --camera_model SIMPLE_PINHOLE --dense 0
# colmap automatic_reconstructor: 这是调用COLMAP程序中的自动重建模块，它会自动完成特征提取、匹配、重投影误差优化和三角化等步骤，以生成场景的稀疏3D点云模型。
# --workspace_path .: 指定了工作空间路径为当前目录(.)，在这个路径下，COLMAP将存储中间结果以及最终的重建输出文件。
# --image_path ./images: 定义了图像数据集所在的路径，即所有参与重建的图片都位于./images目录下。
# --sparse 1: 这个参数表示进行稀疏重建（与密集重建相对），即只构建出场景中的关键点及其对应关系，并通过这些信息生成一个由稀疏点云组成的三维模型。
# --camera_model SIMPLE_PINHOLE: 指定使用的相机模型为“简单针孔模型”（Simple Pinhole Model）。这意味着COLMAP在进行重建时将假设相机遵循的是最基础的几何投影模型，其中不包括像径向畸变这样的复杂因素。
# --dense 0，减少不需要的计算操作。

参考自：

https://blog.csdn.net/leviopku/article/details/136480697

训练自己的数据

按照上述“训练”章节的训练语句执行。

我的训练结果如下图：（图片很渣，所以效果不好。得亏是效果不好，不然要露脸了）

#3D Convex Splatting

3D凸体投影：使用3D平滑凸体的辐射场渲染

本篇分享论文3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes，3D凸体投影：使用3D平滑凸体的辐射场渲染。

网站: https://convexsplatting.github.io/
Arxiv: https://arxiv.org/abs/2411.14974
Youtube: https://www.youtube.com/watch?v=5N3OFHH7lbU
Github: https://github.com/convexsplatting/convex-splatting

，时长11:54

1. 摘要

近年来，辐射场重建技术取得了显著进展，例如 3D 高斯泼溅 (3D Gaussian Splatting, 3DGS)通过高斯基元的组合表示场景，实现了高质量的新视角合成和快速渲染。然而，3D高斯在场景重建中存在一些局限性。准确捕捉硬边界非常具有挑战性，除非显著增加高斯基元的数量，否则会导致巨大的内存开销。此外，它们在表示平面表面时表现不佳，因为高斯基元在空间中呈弥散状态。若没有人工设计的正则化约束，高斯基元往往会在实际表面周围不规则地分散。

图 1 展示了 3D 高斯泼溅的局限性，它无法准确逼近简单形状，例如矩形、圆形或三角形。

为了解决这些问题，我们提出了一种新方法，名为 3D 凸泼溅 (3D Convex Splatting, 3DCS)。该方法利用 3D 平滑凸体 作为基元，从多视角图像中建模几何上更具意义的辐射场。与高斯基元相比，平滑凸体具有更大的灵活性，能够用更少的基元更好地表示具有硬边界和密集体积的 3D 场景。

图 2 展示了我们凸体基元的灵活性，它可以准确逼近矩形、圆形，甚至各向同性和各向异性高斯基元。

借助我们高效的基于 CUDA 的光栅化器，3DCS 在 Mip-NeRF360、Tanks and Temples 和 Deep Blending 等基准测试中表现优于 3DGS。具体而言，与 3DGS 相比，我们的方法在 PSNR 上最高提升 0.81，在 LPIPS 上提升 0.026，同时保持了高渲染速度并减少了所需基元的数量。我们的结果表明，3D 凸泼溅 具有成为高质量场景重建和新视角合成新标准的潜力。

图1. 使用基元重建简单形状

图2. 平滑凸体通过调整平滑参数 δ 和锐度参数 σ，能够表示多种多样的形状，无论是硬质还是柔软，密集还是稀疏。它们可以有效地近似多种几何形状，包括多面体和高斯体，同时所需基元数量较少即可实现准确表示。红线表示凸包

2. 主要贡献

我们提出了3D 凸泼溅，利用3D 平滑凸体作为辐射场表示的新型基元，解决了高斯基元在捕捉密集体积特征方面的局限性。
我们开发了一种优化框架以及基于 GPU 的快速可微渲染管线，针对3D 平滑凸体，能够从多视角图像中实现高质量的 3D 场景表示和高渲染速度。
在 Mip-NeRF360、Tanks and Temples 和 Deep Blending 数据集上，3D 凸泼溅超越了现有的渲染基元，性能优于 3D 高斯泼溅，同时减少了每个场景所需的基元数量。

3. 技术细节

图3. 3D平滑凸体由点集表示，并投影到2D相机平面中。我们提取投影点的线限定凸包，并为每条线定义符号距离函数。这些线被组合起来，根据3D凸体的平滑度参数 δ 和锐度参数 σ，为每个像素定义指示函数。整个管道是端到端可微的，这使得可以根据渲染图像优化平滑凸基元的参数。

算法流程：

基于点的 3D 凸形表示：
基于平面的 3D 凸形表示在投影到相机平面时不可行。我们将 3D 凸形定义为一组 3D 点集的凸包，从而在优化过程中允许点的自由移动。这些点表示凸包，而非凸形的显式顶点。
可微分的 2D 图像平面投影：
为了提高效率，我们避免显式构建 3D 凸包。取而代之的是，我们使用针孔相机模型将 3D 点投影到 2D 图像平面，利用相机的内参矩阵和外参（旋转和平移）。这种可微分投影允许梯度在优化过程中回传到 3D 点，从而实现参数的优化。
2D 凸包计算：
我们使用Graham 扫描算法高效地构建 2D 凸包，仅保留形成外边界的点。该算法通过相对于参考点的极角排序对点集进行排序，然后通过检查叉积逐步添加点，并移除形成右转的点，从而确保凸性（详细信息请参考：Graham 扫描法计算凸包 - GeeksforGeeks）。最终，我们计算出 2D 空间中限定形状的边界线。
可微分 2D 凸形指示函数：
凸形通过符号距离函数定义，使用 LogSumExp 函数近似，其中平滑度参数 (delta) 控制边界曲率，锐利度参数 (sigma) 决定边界过渡的陡峭程度。这些函数组合成一个可微分的指示函数，用于确定像素级的贡献。这一完全可微分的管线使得从渲染图像中直接优化平滑凸形参数成为可能，从而实现准确且可调的 3D 重建。
高效的可微分光栅化器：
我们基于自定义 CUDA 内核实现了基于瓦片的光栅化器，支持快速实时渲染。像素颜色通过有序凸形的Alpha 混合计算，颜色信息存储为球谐函数，以支持视角依赖效果。
自适应凸形优化：
为了改进复杂场景中的几何表示，凸形根据锐利度损失动态分裂为更小的凸形。这种分裂确保对欠重建和过重建区域的覆盖，同时裁剪较大或透明的凸形，以保持渲染效率。

4. 结果

3D 凸泼溅在渲染质量上始终表现更优，超越了其他渲染基元，如 3D 高斯泼溅 (3DGS) 、2D 高斯泼溅 (2DGS) 和 广义指数投影 (GES) 。同时，其轻量化版本仅使用 3DGS 所需内存的 15% ，但仍能保持可比的渲染质量 。

<<< 左右滑动见更多 >>>

图3. 3D 凸泼溅通过使用 3D 平滑凸体表示场景，实现了高质量的新视角合成和快速渲染。相比之下，高斯基元的柔和特性往往导致模糊和细节丢失，而 3D 凸泼溅能够有效捕捉锐利边缘和精细细节 。

5. 结论

我们提出了3D 凸泼溅，这是一种用于辐射场渲染的新方法，利用3D 平滑凸基元实现高质量的新视角合成。

特别地，我们的方法克服了 3D 高斯泼溅的局限性，以更少的基元和参数提供更密集的表示。

此外，3D 凸泼溅在新视角合成任务中表现出显著提升，特别是在 Tanks&Temples 数据集和 Mip-NeRF360 数据集中的室内场景上。

通过将凸形的自适应性与基于基元的辐射场渲染的高效性相结合，3D 凸泼溅实现了高质量、实时且灵活的辐射场重建。

我们期待这种新型基元能够为该领域的进一步研究奠定基础。

#EGSRAL

3DGS渲染器如何生成带有自动标注图像？大规模场景的视角合成和自动标注

生成逼真的全新视角图像是计算机视觉和图形学领域中一个复杂且关键的挑战。随着神经辐射场的快速发展，自由视角合成逐渐扩展到大规模视角合成领域，尤其是在为自动驾驶提供关键街景图像的场景中。然而，由于地理位置的复杂性、多样化的环境以及变化的道路状况，模拟室外环境仍然面临诸多挑战。为了解决这些问题，图像到图像转换方法被提出，旨在通过学习源图像与目标图像之间的映射来生成具有语义标注的街景图像。尽管这些方法能够生成视觉效果惊艳的街景图像，但它们通常在局部细节上表现出明显的伪影和纹理不一致。此外，生成图像的视角通常较为单一，在复杂的自动驾驶场景中应用时存在一定困难。

为了应对这些挑战，Drive-3DAu引入了一种基于NeRF的3D数据增强方法，用于在3D空间中增强驾驶场景。DGNR提出了一种新框架，通过从场景中学习密度空间来指导基于点的渲染器的构建。同时，READ提供了一个大规模驾驶仿真环境，用于为高级驾驶辅助系统生成真实数据。由于其卓越的生成能力，基于3D GS的方法被用于合成驾驶场景。尽管这些方法能够生成适合自动驾驶的真实图像，但它们无法同时生成全新视角和对应的2D/3D标注框，而这些对于监督模型的训练至关重要。因此，增强大规模场景的全新视角合成能力并实现全新视角的自动标注，仍然是自动驾驶领域中的关键挑战。

项目链接：https://github.com/jiangxb98/EGSRAL

为了解决这些挑战，EGSRAL[1]被设计为一种基于增强3D Gaussian Splatting（3D GS）技术的新框架。该框架在提升全新视角合成质量的同时，能够同时生成对应的标注。具体而言，我们提出了一个变形增强模块，用于优化高斯变形场，从而提升动态物体和静态背景的建模能力。此外，我们引入了一个利用神经网络替代原始可学习参数的不透明度增强模块，大幅提升了复杂驾驶场景的建模能力。针对在大规模复杂场景中渲染不合理视角的问题，例如不应包含被遮挡的远处高斯，我们提出了一种分组策略来优化原始3D GS。

主要贡献：

提出了一种增强型基于3D GS的渲染器EGSRAL，该方法能够基于现有数据集的标注，生成带有对应标注的全新视角图像。EGSRAL引入了变形增强模块和不透明度增强模块，提升了3D GS对复杂场景的建模能力。
针对大规模复杂场景渲染中不合理视角的问题，我们提出了一种分组策略，用于优化原始3D GS。
与仅关注全新视角合成的现有方法不同，我们提出了一种带有三个约束的适配器，将相邻标注框转换为自动驾驶领域中的全新标注框。
实验结果表明，方法在大规模场景的渲染方法中表现优于现有方法。此外，带有对应标注的全新视角图像有效提升了2D/3D检测模型的性能。

具体方法

总览

给定驾驶场景的输入图像序列以及通过结构化运动（SfM）方法估算的点云，我们提出的EGSRAL框架能够从多个视角合成真实的驾驶场景，同时自动标注对应的全新合成视角图像。此外，我们还提出了一种分组策略，用于解决大规模驾驶场景中的视角问题。该框架分为两个部分：增强型3D GS渲染器和全新视角自动标注，如图1所示。

3D GS渲染器基于可变形3D GS，并通过创新模块进行了扩展，以改进全新视角的合成能力。对于自动标注，我们引入了一种适配器，用于变换相机姿态和边界框，从而生成全新视角的对应标注。

增强型3D GS渲染

3D Gaussian Splatting（3D GS）通常用于建模静态场景，其处理动态场景的能力有限。近期研究主要集中于提升动态场景的建模能力。我们基于可变形3D GS作为基线方法，并将其应用于自动驾驶场景的重建。此方法为静态背景和动态物体引入了统一的变形场。为了更好地表示每个高斯基元的状态，我们引入了一个状态属性，用于隐式指示该基元是静态的还是动态的。此外，我们通过引入一个变形增强模块优化了变形场，并提出了一个不透明度增强模块，以提高复杂驾驶场景的建模能力。

可变形3D GS网络

为了降低对数据的依赖性，我们仅使用图像数据进行驾驶场景重建。首先，我们通过SfM初始化一组3D高斯，其中分别表示高斯基元的位置、四元数、缩放比例和不透明度。为了更好地建模动态3D高斯，可变形3D GS为3D高斯引入了一个变形场，该变形场以位置和时间为输入，预测位置、旋转和缩放的偏移量。随后，这些变形后的3D高斯会通过可微的瓦片光栅化器进行渲染，以生成全新图像：

其中，是像素的渲染颜色，是透射率，由定义，是每个高斯基元的颜色，是通过评估协方差矩阵的2D高斯并乘以一个可学习的不透明度参数得到的。

然而，可变形3D GS在建模动态物体和静态背景方面仍存在不足。这主要是因为3D高斯无法同时准确表示动态和静态元素。为了解决这一问题，我们为每个高斯基元引入了状态属性，并将其作为输入加入可变形网络，从而提升网络捕获高斯基元状态的能力：

其中，表示可变形网络的参数，是一个停止梯度操作，是位置编码。

变形增强模块（DEM）

为了进一步增强动态物体的建模能力，我们提出了一个变形增强模块，基于时间和高斯基元的状态属性来微调变形场。具体而言，我们使用状态属性和时间编码作为输入，输出每个高斯基元的变形场调整因子：

其中，表示动态编码网络的参数，是当前相机的坐标位置，是激活函数。

此外，在驾驶场景中，为了更有效地建模动态物体的显现与消失，我们通过不透明度调整因子动态调整动态物体的不透明度：

最终，通过调整因子和，我们将变形后的3D高斯修改为，从而使变形场能够更详细地建模动态物体和静态背景。

不透明度增强模块（OEM）

如图像渲染公式（公式1）所示，当前像素的渲染取决于高斯基元的颜色和不透明度。为了增强不透明度预测的能力，我们将高斯基元的不透明度初始化为一个可训练参数，并引入了一个轻量级网络来加速不透明度的优化：

其中，是不透明度增强模块的参数。

分组策略（GPS）

现有基于3D GS的驾驶场景重建方法未考虑大规模场景的情况。为此，我们提出了一种分组策略。正如图2(a)所示，我们通过固定的图像间隔将场景划分为个组，并为每个高斯基元分配一个组标识符。这种策略允许我们基于组标识符执行后续的克隆、分离和渲染操作。通过分组策略，我们解决了视角不合理的问题。例如，在原始3D GS渲染视场中包含的远处高斯基元（图2(c)中的绿色矩形）是不合理的。而通过分组（红色矩形），我们将视场限制在特定范围内，从而通过排除此范围外的高斯基元降低优化负担。

与DrivingGaussian（Zhou et al., 2024）的静态增量训练模式不同，我们的方法避免了顺序分组训练以及为每个组分别训练可变形网络的需求，从而减少了模型数量并缩短了训练时间。然而，高斯基元的位置分布差异可能影响收敛性。为了解决这一问题，我们引入了一种多组联合优化策略。正如图2(b)所示，每个组独立执行前向传播以累积梯度。当所有组完成前向传播后，我们执行梯度反向传播以优化网络参数，从而稳定可变形网络的训练。

此外，为了解决3D GS在初始帧中重建质量较差的问题，我们提出了一种重叠训练策略。具体而言，对于每个组，我们使用前一组的张图像来训练当前组，从而显著提高重建质量。详细算法见附录算法1。

全新视角自动标注

适配器的需求

我们的方法利用图像序列（数据集）通过结构化运动（SfM）方法构建场景点云，并估算相机姿态和参数。生成的点云和相机姿态被定义在SfM方法生成的新坐标系中。然而，图像序列的3D标注及其对应的相机姿态通常定义在原始世界坐标系（OWCS）中，例如在nuScenes数据集中。因此，存在两个不同的坐标系：原始世界坐标系（OWCS）和由SfM方法生成的估算世界坐标系（EWCS）。

我们的渲染器基于EWCS进行训练，因为它使用了在EWCS中估算的点和相机姿态作为输入。同时，用于生成全新视角图像的新相机姿态也基于EWCS，这使得数据集中3D标注在OWCS中的利用变得复杂。因此，需要一个变换适配器来建立这两个坐标系之间的关系，从而有效利用3D标注。通过该适配器，可以将原始世界坐标系（OWCS）中的全新视角相机姿态转换为估算世界坐标系（EWCS），并输入渲染器生成全新视角图像。

我们的适配器

我们采用神经网络来建模两个坐标系之间的相机姿态转换关系，输入为OWCS中的相机姿态，输出为EWCS中的对应相机姿态。我们将相机姿态表示为包含旋转和平移信息的矩阵，因此输入和输出的形状均为。我们使用多层感知器（MLPs）构建适配器，如图3所示，适配器的骨干网络由8层MLP组成，输出层是一个简单的线性层，用于预测EWCS中的相机姿态。为了优化适配器，我们在训练过程中引入了三种约束。

适配器的约束

为了有效训练适配器，我们需要来自数据集中定义于两个坐标系中的相机姿态。可以直接从这些系统中获得现有的相机姿态对，每对包含同一帧在OWCS和EWCS中的相机姿态。我们采用smoothL1损失（Girshick, 2015），确保适配器的预测结果与SfM生成的EWCS中的相机姿态相匹配。用于现有相机姿态约束的损失函数如下：

其中，是现有相机姿态约束的损失，是适配器根据OWCS中的相机姿态预测的姿态，是SfM在EWCS中生成的对应姿态。

通过施加初始约束，适配器可以在两个坐标系之间转换现有的相机姿态。然而，由于相机姿态对的数量有限，适配器的泛化能力受到限制，导致对现有对中未包含的新相机姿态表现不佳。为了解决这一问题，我们引入了新的相机姿态约束。

全新相机姿态约束

全新相机姿态约束通过利用现有数据约束新相机姿态，从而增强适配器的泛化能力。基于同一物体在两个相机坐标系中的投影一致性规则，我们可以为新相机姿态构造投影约束。具体而言，对于数据集中的某一相机姿态，我们使用随机位置变换（RPT）模块生成附近的全新姿态。该姿态在EWCS中有对应的隐式姿态，但不可直接获得。然后，我们将该相机姿态的后续帧相机姿态对分别投影到两个坐标系中的全新相机姿态平面上。对应的投影点应具有相同的像素坐标。

如图3所示，坐标转换模块（CCM）将点从OWCS转换到全新相机姿态的相机坐标系中，利用如下公式进行坐标变换：

其中，是帧在OWCS中的相机姿态，是帧附近随机采样的全新相机姿态，位于OWCS中。然后，我们利用相机内参将这些点投影到全新相机姿态平面上：

其中，是相机内参矩阵，是的平移部分。投影约束的损失函数如下：

此外，为了弥补像素坐标约束的不足，我们引入了3D坐标系统中的位置约束：

最终的总损失函数为：

标注生成

在推理阶段，如图1所示，我们从数据集中获取原始相机姿态（定义于OWCS），通过RPT模块生成全新姿态。然后，我们将输入适配器，生成EWCS中的对应姿态。将输入渲染器可生成对应的全新视角图像（）。同样，将相同的仿射变换应用于数据集中的原始标注（），即可生成。将和结合即可生成带有标注的全新视角图像，从而实现自动标注。

实验效果

总结一下

EGSRAL是一种新颖的基于3D GS的渲染器，结合了自动标注框架，能够生成带有对应标注的全新视角图像。在全新视角渲染方面，我们引入了两个有效的模块，以提高3D GS建模复杂场景的能力，并提出了一种分组策略来解决大规模场景中不合理视角的问题。在全新视角自动标注方面，我们提出了一种适配器，用于为全新视角生成新的标注。实验结果表明，EGSRAL在全新视角合成方面显著优于现有方法，并在带标注图像的目标检测性能上取得了优异的表现。

#GPT4Scene

港大&上海AI Lab最新 | GPT4Scene：零样本3D场景理解SOTA！

论文标题：GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models

论文链接：https://arxiv.org/pdf/2501.01428

项目链接：https://gpt4scene.github.io/

作者单位：香港大学上海人工智能实验室

近年来，二维视觉-语言模型（2D Vision-Language Models, VLMs）在图像-文本理解任务中取得了显著进展。然而，在至关重要的3D空间理解任务上，这些模型的表现仍然有限。最近的一些研究利用3D点云和多视图图像作为输入，取得了有希望的结果。然而，我们提出了一种受人类感知启发的纯视觉解决方案，仅依赖视觉线索进行3D空间理解。

我们通过实证研究揭示了VLMs在3D空间知识上的局限性，发现其主要问题在于场景与单帧之间缺乏全局-局部对应关系。为了解决这一问题，我们提出了一种新颖的视觉提示范式（visual prompting paradigm），称为GPT4Scene，用于VLM的训练和推理过程，以构建全局与局部关系，显著提升室内场景的3D空间理解能力。具体来说，GPT4Scene从视频中生成一个3D俯视图（Bird's Eye View, BEV）图像，并在帧与BEV图像之间标记(marks)一致的物体ID。模型随后将拼接后的BEV图像和带有标记的视频帧作为输入。

在零样本评估中，GPT4Scene在如GPT-4o等闭源VLM上的性能得到提升。此外，我们还准备了一个包含16.5万条文本标注的处理后的视频数据集，用于微调开源VLM，在所有3D理解任务中实现了当前最先进的性能（state-of-the-art）。令人惊讶的是，在采用GPT4Scene范式进行训练后，即使在推理阶段没有显式使用视觉提示或BEV图像作为对应关系，VLMs的性能仍然持续提升。这表明所提出的范式帮助VLMs开发了一种内在能力来理解3D场景，为扩展预训练VLMs进行3D场景理解提供了一种非侵入式的方法。

主要贡献：

提出了GPT4Scene框架，用于增强视觉-语言模型（VLMs）从纯视觉输入中直接理解3D场景的能力。
引入了两项技术：(1) 包含全局上下文信息的3D俯视图（BEV）图像；(2) 用于在BEV图像与视频帧之间保持空间和时间一致性的时空物体标记（STO markers）。
构建了ScanAlign数据集，包括视频帧、带有STO标记的BEV图像以及文本标注。对VLMs在该数据集上进行微调，显著提升了其3D场景理解能力。
GPT4Scene在零样本和微调设置中表现出强大的性能，在各种3D场景理解任务中达到了当前最先进的结果（SOTA）。

方法设计：

（Embodied AI）是指能够通过与物理环境交互执行各种任务的智能系统。它在工业检测、智能家居和智慧城市等领域具有广泛的应用。3D场景理解涉及多模态语言模型理解室内环境整体布局及物体之间空间关系的能力。因此，有效理解场景是构建的坚实基础。

目前，3D点云LLMs是一种理解室内场景的流行方法，使用点云作为输入，并将点云特征与LLMs对齐以执行场景理解任务。然而，这种方法存在若干局限性。首先，点云在提供详细信息方面有限，例如精细的几何细节、材料属性以及复杂纹理。其次，尽管一些点云LLMs尝试同时使用点云和多图像作为输入，但它们在对齐文本、图像和点云模态时面临挑战。此外，点云数据与文本/视频数据在数量上的显著不平衡进一步加剧了这一问题。

这些局限性促使我们探索使用纯视觉输入进行室内场景理解。这种方法更贴近人类的感知方式，因为人类能够在无需依赖显式3D数据（如点云）的情况下理解3D场景。视觉-语言模型（Vision Language Models, VLMs）在图像-文本多模态任务中已展现出卓越的表现，但其在沉浸式3D室内场景理解中的应用尚未得到充分研究。为此，我们进行了一项初步研究，直接将场景视频输入VLMs，以探讨其潜力。结果表明，这种方法导致VLMs无法有效理解3D场景。问题的核心在于缺乏全局场景信息，以及每一帧局部位置与整体上下文之间的对齐不良。

为了解决这一问题，我们提出了一个名为GPT4Scene的框架，以帮助VLMs建立空间关系，如图1所示。首先，我们基于输入视频进行3D重建，生成一个俯视图（Bird’s Eye View, BEV）图像，作为额外输入，从而提供场景布局的全局视角。同时，我们在3D BEV图像和2D帧中引入了时空物体标记（Spatial-Temporal Object markers, STO markers）。这些STO标记表示在连续帧中一致的物体ID（时间层面），并与3D BEV图像中的物体ID（空间层面）对齐，从而帮助VLMs建立整体场景布局与视频帧之间的全局-局部关系。

在零样本设定下，首先将GPT4Scene应用于强大的闭源VLMs（如GPT-4o），使用包含STO标记的视频帧和BEV图像作为输入。其性能与现有基于3D点云的LLMs相当，验证了GPT4Scene在增强VLMs的3D场景理解能力方面的有效性。对于较小的开源VLMs，我们构建了一个名为ScanAlign的数据集，其中包含带有STO标记的视频帧、BEV图像和文本标注。在该数据集上微调后，我们的方法优于现有方法。此外，经过微调后，VLMs在仅以原始场景视频作为输入的情况下也表现出色，而在训练之前需要额外处理才能取得良好结果。这表明，GPT4Scene帮助VLMs发展了一种内在能力，可以建模3D场景关系。

图1. GPT4Scene的整体架构。

GPT4Scene能够理解3D场景，并仅通过视频输入执行诸如3D问答、密集描述和视觉定位等任务。与基于3D点云的LLMs相比，GPT4Scene仅依赖视觉模态作为输入，通过从视频提取的3D结构重建的BEV图像提供全局信息。

图2. 初步研究。

在开源VLM（Qwen2-VL）和闭源VLM（GPT-4o）上进行了零样本3D问答测试。对于GPT-4o，添加BEV图像及相应的物体标记（与视频帧一起输入）显著提升了性能，但对于Qwen2-VL则未见显著改进。这表明提供全局特征以及全局与局部信息的连接是有益的，但较小的VLM可能需要通过微调来增强其3D理解能力。

‘VID’表示室内视频帧，‘BEV’表示室内俯视图（BEV Map），‘Mrks’表示视频帧和BEV图上的物体ID标记。

图3. GPT4Scene的框架。

场景视频经过采样帧处理、点云重建以及BEV图像生成。物体位置从点云中检测并投影到视频帧上。最终生成的帧和带有STO标记的BEV图像作为输入，用于VLM的训练和推理。

实验验证：

图4. 定性结果。

展示了GPT-4o在零样本GPT4Scene提示下的表现，能够通过视频帧和BEV图像理解3D场景。同时，它还可以接受其他图像输入并执行多种任务。

表1. ScanAlign的文本标注。

我们通过对与ScanNet相关的文本标注进行多样化处理，生成了165K条文本标注，用于构建ScanAlign数据集。

表2. 在ScanQA 和SQA3D 数据集上的3D问答评估。

在零样本设定下，GPT-4o（GPT4Scene）的表现优于大多数3D LLM模型。经过GPT4Scene微调的Qwen2-VL实现了当前最先进的性能（state-of-the-art）。基础设定（Base）使用帧，分辨率为；“HD”将分辨率提高到；“HDM”结合了该分辨率和帧的输入。

表3. 在Scan2Cap 数据集上的3D密集描述评估。

我们的结果优于现有基于3D LLM的模型。

表4. 在ScanRefer 和Multi3DRef 数据集上的3D视觉定位评估。

我们的方法达到了当前最先进的性能（SOTA）。

表5. 消融实验。

在训练和推理中移除BEV图像会导致性能下降，进一步移除STO标记则会导致性能进一步下降。

表6. 关于帧数和分辨率的消融实验。

结果表明，帧数对问答（QA）和定位（grounding）均有影响，而分辨率对定位的影响尤为显著。

总结：

我们提出了GPT4Scene框架，用于增强视觉-语言模型（Vision-Language Models, VLMs）从纯视觉输入中直接理解3D场景。初步研究表明，全局场景信息以及视频帧与全局上下文中物体的对应关系是提升VLMs 3D理解能力的关键。通过从输入视频中重建3D点云来生成俯视图（BEV）图像，以提供全局信息。同时，通过在视频帧和BEV图像中添加时空物体标记（Spatial-Temporal Object markers, STO markers），建立全局与局部数据的对应关系。GPT4Scene在诸如GPT-4o等闭源VLM中，通过零样本推理实现了卓越的性能。对于较小的VLM（如Qwen2-VL），我们创建了ScanAlign数据集，包含视频帧、BEV图像、STO标记以及16.5万条文本标注。在该数据集上微调后，VLMs在场景理解能力上表现出显著提升，在问答任务中达到了当前最先进的性能（SOTA）。此外，微调后的VLMs仅使用原始视频帧作为输入即可在问答任务中表现出色，这表明GPT4Scene有效地赋予了VLMs理解3D场景的能力。

#Prometheus

几秒生成逼真3D场景，泛化媲美Stable Diffusion | 浙大&蚂蚁等提出

浙大和蚂蚁集团提出的Prometheus模型，这是一种面向文本到3D生成的3D感知隐空间扩散模型，能够在几秒钟内生成逼真的3D场景。

论文链接：https://arxiv.org/pdf/2412.21117

git链接：https://freemty.github.io/project-prometheus/

亮点直击

Prometheus，这是一种面向文本到3D生成的3D感知隐空间扩散模型，适用于对象和场景级别。
按照标准的隐空间扩散范式，将训练分为两个不同的阶段。在第一阶段，训练一个3D高斯变分自编码器（GS-VAE），它以多视角或单视角RGB-D图像为输入，预测每个像素对齐的3D高斯。在第二阶段，训练一个多视角LDM，联合预测多视角RGB-D隐空间code，并以相机姿态和文本提示为条件。
此外，本文的完整模型在9个多视角和单视角数据集的组合上进行训练，旨在实现与Stable Diffusion相当的泛化能力。
展示了该方法在前馈3D高斯重建和文本到3D生成中的有效性，表明本模型能够在几秒钟内生成3D场景，同时很好地泛化到各种3D对象和场景。

总结速览解决的问题

实现从文本到3D场景的高效生成，适用于对象级别和场景级别。
提升生成3D内容的保真度和几何质量，同时确保模型具备良好的泛化能力。
改善现有方法在3D生成中的效率问题，实现快速且高质量的3D生成。

提出的方案

多视图、前馈、像素对齐的3D高斯生成：将3D场景生成表述为在隐空间变量扩散框架中的这一过程。
两阶段训练框架：

第一阶段：训练3D高斯变分自编码器（GS-VAE），以多视角或单视角的RGB-D图像为输入，预测每个像素对齐的3D高斯。
第二阶段：训练多视角隐空间变量扩散模型（LDM），联合预测多视角RGB-D隐空间代码，并以相机姿态和文本提示为条件进行生成。

RGB-D隐空间变量空间的引入：通过解耦外观和几何信息，优化3D高斯生成的效率和质量。
基于预训练模型的微调：以预训练的文本到图像生成模型为基础，进行最小调整后，利用来自单视图和多视图数据集的大量图像进行训练。

应用的技术

隐空间变量扩散模型（LDM）：作为生成框架，结合3D高斯生成和多视角条件。
3D高斯变分自编码器（GS-VAE）：用于从RGB-D图像中提取隐空间变量并生成像素对齐的3D高斯。
RGB-D隐变量空间：解耦外观（RGB）和几何信息（D），提升生成的保真度和几何质量。
多视角训练数据：结合9个多视角和单视角数据集，增强模型的泛化能力。
前馈生成策略：相比传统方法，显著加速生成过程。

达到的效果

高效生成：在几秒内实现对象级别和场景级别的3D生成。
高质量输出：生成的3D内容在保真度和几何质量上表现优异。
良好的泛化能力：在不同类型的3D对象和场景中均表现出色，与Stable Diffusion相当的泛化能力。
实验验证：大量实验结果证明了Prometheus在前馈3D高斯重建和文本到3D生成中的有效性。

方法

如下图2所示，Prometheus遵循常见的隐空间变量扩散框架，该框架包括两个训练阶段。在第一个阶段，3D自动编码器GS-VAE从多视图图像中学习压缩和抽象的隐空间变量空间。随后，它将该隐空间变量空间解码为像素对齐的3D高斯（3DGS）表示，作为场景级别的表示。在第二个阶段，一个隐空间变量多视图扩散模型（MVLDM）在第一阶段自动编码器生成的隐空间变量表示上进行训练，从而形成一个完全生成的模型。最后，详细说明了采样策略，该策略能够在几秒钟内采样出3D场景，同时保持一致性和视觉保真度。

第一阶段: GS-VAE

在阶段 1 中，目标是训练一个能够将数据压缩到隐空间并随后将其重建为3D表示的3D自动编码器。给定具有相机位姿的多视角输入图像，GS-VAE输出多视角像素对齐的3D高斯表示（3DGS）。这些输出随后被合并为场景级别的3D表示。

编码多视角RGB-D图像。

其中每张图像是一个底层3D场景的观察结果，我们首先使用一个现成的深度估计器来获得它们对应的单目深度图：

接下来，我们利用一个预训练的图像编码器对多视角图像及其深度图进行编码，以获得潜表示：

其中是下采样后的分辨率。在实际操作中，使用预训练的 Stable Diffusion（SD）图像编码器，并在训练过程中冻结它。最近的方法（如 Marigold）表明，SD 编码器在处理深度图时表现出强大的泛化能力。因此，我们选择使用相同的 SD 编码器分别对图像和深度进行编码，而无需进行微调。随后，我们将这些编码表示进行拼接，以获得完整的多视图隐空间变量，该隐空间变量可用于 3D 重建。此外，我们的扩散模型在联合的 RGB－D 隐空间变量空间中进行训练。

融合多视图隐空间变量图像

最近的研究进展 [26, 35, 77, 101, 102] 强调了基于 Transformer 的模型在整合多视图信息方面的显著潜力。由于每个视图的隐空间变量编码是独立生成的，我们采用多视图 Transformer 来促进跨视图信息的交换。

我们进一步向多视图 Transformer 中注入个相机姿态。受近期研究的启发，我们选择 Plücker 坐标作为相机表示，具体为，其中表示归一化的光线方向，表示相机原点。因此，初始的个相机姿态可以重新参数化为多视图光线图

通过在特征通道上拼接多视图隐空间变量编码和相机光线图，并将它们输入到跨视图 Transformer中，从而获得融合的隐空间变量编码，该编码融合了多视图上下文信息：

解码为高斯场景 将原始图像的隐空间变量编码，光线图和融合后的隐空间变量编码进行拼接，并将它们输入解码器，从而获得像素对齐的多视图 3D 高斯场景

其中，是与每张图像对应的像素对齐的三维高斯分布。一个三维高斯分布的参数包括： 1 通道的深度，4通道的旋转四元数，3通道的尺度，1通道的不透明度以及3通道的球谐系数。因此，在我们的公式中，。在聚合多视图三维高斯分布后，我们可以得到最终的场景级三维高斯分布，如公式（4）所示：

这里，表示聚合操作，通过将所有的 3D 高斯转换为全局坐标系来实现。表示完整高斯基元的数量，其等于。

在实践中，该架构同样适用于单视图图像，此时等于 1 。在训练过程中，同时从单视图和多视图图像中进行采样。此外，为了最大化利用 2D 生成先验，遵循 Director3D 的方法，并对预训练的 Stable Diffusion 图像解码器进行轻微修改，将其重新用作我们的高斯解码器。具体来说，仅调整了第一层和最后一层卷积层的通道数。

损失函数 给定重建的场景级 3D 高斯，可以从任意视点对其进行渲染。设表示给定的视点，可以从渲染出相应的 RGB 图像和深度图：

其中，表示 3D 高斯点渲染的可微分渲染。随后可以应用渲染损失，该损失结合了 MSE（均方误差）损失和感知损失：

除了在RGB域上的渲染损失外，还在渲染的期望深度与单目深度之间施加损失，后者作为伪几何真实值，如下所示：

其中，是一种尺度不变的深度损失，引用了［55］的方法。这里，和是用于将与对齐的尺度和偏移，因为仅在尺度和偏移上是定义的。使用最小二乘准则来确定和。

完整的 GS-VAE 损失函数如下：

其中，表示 GS－VAE 中可优化的参数，用于平衡每个损失项的权重。

第二阶段: 几何感知多视图降噪器

在第一阶段的训练之后，获得了一个GS-VAE，其具备以下能力：

能够高效地将图像压缩到一个紧凑的隐空间空间中;
通过3D高斯解码器在2D和3D之间架起桥梁.

这种能力使能够在隐空间空间中训练多视图扩散模型（MV－LDM）。目标是联合生成多视图RGB－D隐空间编码，以提供更丰富的几何线索用于解码 3 DGS 。因此，制定了一个连续时间去噪扩散过程，该过程以文本提示和相机姿态为条件。扩散模型包括一个随机的前向过程，用于将一个噪声水平的高斯噪声注入到输入的隐空间编码中，以及一个通过可学习去噪器移除噪声的反向过程。

训练。 在每个训练步骤中，采样一个噪声水平，其中。接下来，将这一水平的噪声添加到干净的多视图隐空间编码中，以获得带噪声的隐空间编码为：

在反向过程中，扩散模型通过一个可学习的多视图去噪器将去噪为预测的干净隐空间编码，表示如下：

其中，和分别是文本和相机姿态的条件。MV-LDM 是通过在隐空间中使用去噪得分匹配 (DSM)进行训练的。

带有加权函数。在本工作中，我们遵循 EDM，并将去噪器参数化为：

其中，是要训练的 UNet，和是预处理函数。此外，与阶段1中的公式（3）一致，使用射线图作为姿态表示，并通过将其与带噪声的隐空间编码沿特征通道连接的方式将其引入网络中。此外，文本提示条件通过交叉注意力机制引入。

受最近多视图扩散方法 [18, 38, 63] 的启发，将原始 UNet 中的自注意力块替换为3D跨视图自注意力块，以捕捉多视图相关性。在实践中，为了利用预训练的文本到图像模型的先验，从预训练的文本到图像扩散模型（特别是 Stable Diffusion 的 UNet）初始化模型。

采样。 在采样时，多视图隐空间编码是通过在文本提示和相机姿态的条件下，从随机采样的高斯噪声开始，通过迭代应用训练好的 MV－LDM 的去噪过程恢复的。

其中，是从一个具有步固定方差计划的去噪过程采样得到的。

噪声水平的重要性 受近期研究工作的启发，认识到在去噪步骤中较低的信噪比（Signal－to－ Noise Ratio，SNR）对于确定内容的全局低频结构至关重要。此外，在采样过程中较低的 SNR 对于在多视图扩散模型中实现多视图一致性也是必不可少的。因此，在 MV－LDM 的多视图训练中采用了一个相对较大的噪声分布，具体为和，而在单视图训练中采用了和。

几秒钟内生成文本到 3D 场景

基于上述模型，可以通过以下方式实现前馈的文本到3D场景生成：从隐空间中使用多视图扩散模型对随机采样的高斯噪声进行采样，生成多视图的 RGB－D 隐空间变量，随后通过 GS－VAE 解码器解码为一个 3 D 高斯场景：

为了以高质量进行采样并与条件对齐，使用无分类器引导（CFG）来引导多视图生成朝向条件信号。

其中，表示引导强度。然而，如果我们简单地应用大多数文本到图像方法中常用的朴素CFG公式（公式（16）），增加会导致生成结果中的多视图不一致。上述朴素设计导致模型过度拟合文本条件，同时损害多视图一致性，这与中的发现一致。为了在采样过程中平衡多视图一致性和保真度，遵循 HarmonyView 并调整混合采样引导，将公式（16）重写如下：

其中，和分别表示文本引导和姿态引导的权重，且满足，从而更好地在生成的视图中保持保真度和一致性。此外，还采用［41］中提出的 CFG－rescale 方法，以避免在条件采样过程中出现过饱和问题。

实验

训练数据

本文方法在大规模单视图和多视图数据集上进行训练，详见下表1。关于单视图数据集，使用了高质量的 SAM-1B 数据集，该数据集包含详细的描述，并出现在 PixArt-α 中。本文模型在9个多视图数据集的组合上进行训练，这些数据集包括以物体为中心、室内、室外和驾驶场景。每个场景的文本提示由多模态大语言模型生成。

实施细节

在GS－VAE的训练阶段（阶段1），为每个多视图场景设置输入视图和新视图的数量为。为了提高模型的泛化能力，还在多视图图像旁采样 2 个单视图图像，并仅对单视图图像的输入视图应用损失。 GS－VAE在 8 个A800 GPU上以 32 的批量大小进行训练。最终模型经过 200,000 次迭代，大约需要 4 天。使用gsplat作为我们的3D高斯渲染器。从预训练的RayDiff模型初始化跨视图Transformer的权重。

对于MV－LDM（阶段2），采用Stable Diffusion 2．1作为基础模型。在训练过程中，为每个多视图场景设置。与阶段 1 类似，在多视图图像旁采样个单视图图像。每次迭代时，在每个GPU上采样批大小为 8 的图像。最终的MV－LDM模型在 32 个A800 GPU上训练，总批量大小为 3072 张图像。模型经过 350,000 次迭代，大约需要 7 天。使用DepthAnything－V2－S模型动态估计深度图。为了在采样过程中实现无分类器引导，在训练过程中，以的概率随机丢弃文本条件和姿态条件。

评估协议

3D重建（阶段1）。 为了展示GS-VAE的3D重建泛化能力，使用Tartanair进行评估。Tartanair是一个多样化的合成数据集，包含18个不在我们训练集中的场景，涵盖室内和室外场景。根据输入视图之间的重叠程度和距离，将其分为三种不同模式：简单、中等和困难，每种模式包含4个上下文视图和3个目标视图。使用PSNR、SSIM 和LPIPS 指标来评估重建图像。为了更好地比较重建的几何形状，评估渲染的深度图。按照[27, 61]的方法，将渲染的深度图与真实值进行每场景的比例和偏移对齐，并计算两个广泛认可的指标进行评估：绝对平均相对误差（AbsRel）和在指定阈值1.25下的准确率。

3D生成（阶段2）。 为了评估本文模型的文本到3D生成能力，使用来自T3Bench 的两个文本提示集——单对象和单对象带环境。这些集合共同评估模型在对象级别和场景级别生成任务中的熟练程度。此外，收集了80个涵盖室内和室外场景的多样化场景级别文本提示。定量结果使用CLIPScore、NIQE 和BRISQUE 指标进行评估。CLIPScore评估生成图像与文本提示之间的一致性，而NIQE和BRISQUE则表示图像质量。

与基线比较

3D重建。 将Prometheus的GS-VAE与两种稀疏视图重建模型进行比较，即pixelSplat 和MVSplat 。定量结果如下表2所示，其中强调了所有指标中的最佳、次佳和第三佳得分。首先在几何方面，Prometheus超过了其他两个基线，其优势随着输入视图重叠程度的减少而更加明显——参见，在简单模式下相对提升了44%，在困难模式下相对于pixelSplat有显著的64%提升。关于重建的图像，Prometheus在简单模式下提供了可比的结果，并且在模式加剧时，特别是在困难模式下，明显优于其对手。在下图3中也提供了定性结果。这些关于几何和图像重建的发现表明，Prometheus比其基线对输入视图重叠的变化更具鲁棒性，这是下游3D生成任务成功的关键因素。

3D生成。 将Prometheus与三种文本到3D的基线方法进行比较，涵盖了基于优化的方法和前馈方法。GaussianDreamer 是一种最先进的基于SDS的3DGS方法。还实现了一个基线，它将多视图到3D的方法LGM 应用于由MVDream 生成的图像。我们还与一种前馈方法Director3D（不带精炼器）进行比较。下图4和下图5显示，本文方法能够生成对象和场景级别的内容，包含背景和丰富的细节，优于基于优化和前馈的基线。下表3显示，整体指标在对象级别上不如Director3D，但在其他情况下领先。这归因于对象中心设置中的失败案例。请注意，我们方法仅需8秒即可生成，优于所有基线。

GS-VAE 消融 (Stage 1)

在下表4中，对Tartanair的困难模式进行了消融研究，分析了GS-VAE的以下因素。

深度先验对GS-VAE的有效性： 研究了在第一阶段训练中RGB-D隐空间空间的影响。上表4中的结果显示，仅使用RGB隐空间空间而不使用RGB-D隐空间空间进行训练，会导致几何结果比完整模型更差。此外，这种较差的几何将导致重建图像的质量不佳，详见图6中的定性结果。

大规模数据集在可泛化重建中的重要性： 接下来，对大规模数据集的有效性进行了消融研究，在上表4中标记为“w/o single-view”。排除单视图数据集会导致重建图像和几何性能的下降。这强调了大规模数据集在实现稳健的可泛化重建中的重要作用。也在下图6中展示了定性结果。

MV-LDM 消融(Stage 2)

在下表 5 中，对 T3Bench 的 SingleObject-with-Surroundings 子集进行了消融研究，分析了 MV-LDM 的训练和推理策略。

单视图数据集 (Single-View Dataset)
评估了单视图数据的影响。当仅使用多视图数据进行训练（即不包含单视图数据，w/o single-view data）时，模型性能出现了下降。这种性能下降可归因于缺乏单视图数据，导致模型的泛化能力降低，这与 MVDream 中的观察结果一致。

高噪声水平 (High Noise Level)
如 Zero123++ 和前文所述，对模型而言，在低频空间中学习高层次结构是至关重要的。因此，通过在多视图训练中设置和（即不包含高噪声水平，w/o high-noise level）来评估高噪声水平的有效性。上表 3 的结果显示，在这种设置下，视觉质量和 CLIP 分数均有所下降。

混合采样和 CFG 重标定 (Hybrid Sampling and CFG-Rescale)
最后，评估了前文中推理策略的设计，具体包括混合 CFG 采样和 CFG 重标定。在实验中，仅对文本提示应用 CFG（即不使用混合采样，w/o hybrid sampling），并将 CFG 重标定因子设置为 0（w/o CFG-rescale）。上表 5 显示，缺乏混合采样和 CFG 重标定会导致指标在不同程度上下降。

结论

Prometheus，这是一种3D感知的隐空间扩散模型，专为在对象级别和场景级别上实现文本到3D生成而设计，并且能够在数秒内完成。通过大量实验，展示了该方法在前馈重建和3D生成任务中的有效性。相信，本工作为文本到3D场景生成提供了重要贡献，提升了通用性、保真度和效率。

#3DIS-FLUX

FLUX加持大幅提升渲染质量和控制能力！浙大&哈佛提出3DIS升级版3DIS-FLUX

浙大与哈佛团队提出3DIS-FLUX，通过深度驱动的解耦生成框架和FLUX模型的结合，显著提升了多实例生成任务的渲染质量和控制能力，同时避免了额外训练负担，实验表明其在实例成功率和图像质量上优于现有方法。

文章链接：https://arxiv.org/pdf/2501.05131

项目链接：https://limuloo.github.io/3DIS/

亮点直击

3DIS的创新：通过深度驱动的解耦生成框架，大大降低了对计算资源的需求，并解决了适配器方法的重新训练问题。
FLUX的集成：3DIS-FLUX利用FLUX模型提升了渲染质量和控制能力，超越了传统的U-Net架构。
训练-free细节渲染：通过细致控制FLUX模型中的Attention机制，成功实现了对每个实例细节的精确渲染，避免了额外的训练负担。
性能与质量双重提升：3DIS-FLUX在多个基准测试中显示出比现有方法更好的实例成功率和更高的图像质量。

总结速览解决的问题：

适配器方法的挑战：当前的MIG方法通常基于适配器，这要求在每次推出更先进的模型时重新训练新的适配器，消耗大量资源。此外，高质量的实例级标注数据难以获得。
计算资源和数据依赖：适配器方法需要为不同的模型进行重新训练，这对资源有限的用户造成了困扰；同时，实例级别的标注数据难以获得。

提出的方案：

3DIS框架：通过将MIG过程分为两个阶段：1) 基于深度的场景构建；2) 利用预训练的深度控制模型进行细节渲染，减轻了对大量训练数据和计算资源的依赖。特别地，3DIS在场景构建阶段只需要训练深度生成模型。
3DIS-FLUX扩展：在3DIS框架基础上，引入FLUX模型用于增强渲染能力，利用FLUX.1-Depth-dev模型进行深度图控制的图像生成，同时通过训练-free的细节渲染器对实例属性进行精细化控制，确保每个实例的细节符合布局信息。

应用的技术：

3DIS框架：将MIG分为深度生成和细节渲染两个独立的阶段，前者使用布局到深度图的生成模型，后者利用预训练的深度控制模型进行细节渲染。
FLUX模型：作为基于Diffusion Transformer（DiT）架构的模型，FLUX具有比传统U-Net架构更强的渲染能力和控制能力。特别是在3DIS-FLUX中，FLUX被用来生成基于深度图的图像，并通过约束Joint Attention机制精确渲染每个实例的细节。
训练-free的细节渲染器：通过约束FLUX的Joint Attention机制，确保每个实例的图像tokens仅关注自己的text tokens，从而精确渲染实例属性。

达到的效果：

提高渲染精度：3DIS-FLUX在COCO-MIG基准测试中，相比原始的3DIS方法（使用SD2和SDXL），实例成功率（ISR）提高了6.9%。相比于训练-free的SOTA方法Multi-Diffusion，ISR提高了41%以上，超越了当前的SOTA适配器方法InstanceDiffusion（提高了12.4%）。
图像质量提升：FLUX模型的引入大幅提高了图像质量，3DIS-FLUX在渲染效果上超过了其他方法。

方法前提

FLUX是一种最新的最先进的扩散Transformer（DiT）模型，相比于以前的模型，它生成的图像质量更高，并展示了强大的文本控制能力。给定输入文本，FLUX 首先使用 T5 文本编码器将其编码为文本嵌入。然后，将这个文本嵌入与图像嵌入连接，进行联合注意力机制。经过几轮联合注意力后，FLUX 模型解码输出的图像嵌入，生成与输入文本相对应的高质量图像。

问题定义

多实例生成（MIG）要求生成模型同时生成多个实例，确保它们的位置和属性与用户的规格对齐。给定布局和实例的文本描述，MIG 要求每个实例在指定的位置生成，并与描述在视觉上匹配。此外，用户提供一个描述整个场景的全局文本，生成的图像必须与该全局文本一致。

概述

下图 2 展示了 3DIS-FLUX 的概述。与原始 3DIS 相似，3DIS-FLUX 将多实例生成解耦为两个阶段：生成场景深度图和渲染细粒度细节。在第一阶段，3DIS-FLUX 使用来自 3DIS 的布局到深度模型生成基于用户提供的布局的场景深度图。在第二阶段，3DIS-FLUX 使用 FLUX.1-depth-dev模型从场景深度图生成图像，从而控制生成图像的布局。为了进一步确保每个实例的细粒度属性得到准确渲染，3DIS-FLUX 引入了细节渲染器，该渲染器在联合注意力过程中根据布局信息约束注意力掩码。

FLUX 细节渲染器

动机
给定第一阶段生成的场景深度图，FLUX.1-depth-dev 模型（BlackForest，2024）能够生成符合指定布局的高质量图像。在仅涉及单个实例的场景中，用户可以通过描述一个全局图像文本来实现精确渲染。然而，当尝试用一个全局文本描述准确地渲染多个实例时，会遇到挑战。例如，在上面图 2 所示的案例中，使用像“一个橙色杯子，一个黄色杯子，一个蓝色杯子”这样的描述渲染场景深度图中的每个“杯子”时，会遇到困难。这种方法常常导致颜色不一致的问题，例如原本应为蓝色的杯子被渲染为橙色，下图 4 中有更多例子说明了这个问题。因此，将空间约束整合到 FLUX 模型的联合注意力过程中对于准确渲染多个实例至关重要。为了解决这些问题，本文引入了一个简单但有效的 FLUX 细节渲染器，大大提高了渲染精度。

准备工作
为了根据用户的描述同时渲染多个实例，不仅将全局图像文本编码为，还将实例描述编码为。这些编码后的特征被连接成最终的文本嵌入，然后输入到 FLUX 模型的联合注意力机制中。根据用户提供的布局，我们在联合注意力过程中确定图像标记和文本标记之间的对应关系。由于在第一阶段已经生成了场景深度图，可以选择使用 SAM模型进一步优化用户的布局，以获得更准确的渲染，如图 2 所示。

控制图像嵌入的注意力
FLUX 模型通过多步采样生成图像。

早期步骤确定每个实例的主要属性。因此，必须严格避免属性泄漏，确保与实例对应的图像标记只能在区域内参与联合注意力，并且只能关注其对应的文本标记。
在后期步骤，为了确保生成图像的质量，放宽这一约束：每个图像标记可以关注所有其他图像标记。此外，在关注其对应的文本标记时，它还可以关注全局文本标记。我们通过设置阈值来控制这两个阶段。

控制文本嵌入的注意力
在 FLUX 模型中，T5 文本编码器专门用于提取文本编码，而没有结合图像数据进行预训练。这与以前使用 CLIP 文本编码器的方式不同，后者是在文本和图像数据上进行过预训练的。在联合注意力过程中，T5 文本嵌入本身缺乏显著的语义信息。如果没有约束，它们容易不小心引入错误的语义信息。例如，如下图 5 所示，当“黑色汽车”和“绿色停车计时器”的 T5 文本嵌入被连接并输入到 FLUX 的联合注意力机制时，允许“绿色停车计时器”标记关注“黑色汽车”标记，导致停车计时器主要呈现为黑色。与此同时，我们发现 FLUX 在此阶段无法成功渲染“黑色汽车”。因此，在联合注意力过程中必须对文本标记的注意力掩码施加约束，以避免此类语义差异。我们发现，在所有步骤中对实例的文本标记施加严格的注意力掩码约束，并不会显著影响最终生成图像的质量。因此，在所有步骤中，限制与对应的文本标记仅关注位于区域内的图像标记，并且只关注其自身的文本标记。对于全局文本标记，我们不施加显著约束。

实验

实现细节

在布局到深度阶段，采用与原始 3DIS方法相同的方式。为了在图像生成中加入深度控制，使用了 FLUX．1－depth－dev 模型。在图像生成过程中，采用了 20 步的采样策略。对于分辨率为 512 的图像，参数设置为 4。随着分辨率的增加，也会相应调整：对于分辨率为 768 的图像，设置为 3 ；对于分辨率为 1024 的图像，调整为 2 。

实验设置

基准方法
将3DIS 方法与最先进的多实例生成方法进行了比较。比较中涉及的方法包括无训练的方法：BoxDiffusion和 MultiDiffusion；以及基于适配器的方法：GLIGEN、InstanceDiffusion和 MIGC。

评估基准
在 COCO-MIG基准上进行了实验，以评估模型控制实例位置和准确渲染每个生成实例的细粒度属性的能力。为了进行全面评估，每个模型在基准上生成了 750 张图像。

评估指标
使用以下指标来评估模型：

平均交并比（MIoU），衡量生成的实例位置与目标位置之间的重叠度；
实例成功率（ISR），计算正确定位且具有准确属性的实例比例。

比较

与最先进方法的比较
下表 1 中展示的结果表明，3DIS 方法不仅展现了强大的位置控制能力，还具有稳健的细节渲染能力。值得注意的是，3DIS 的整个实例属性渲染过程是不需要训练的。与之前的最先进无训练方法 MultiDiffusion 相比，3DIS-FLUX 在实例成功率（ISR）上提高了 41%。此外，与需要训练的 SOTA 适配器方法 InstanceDiffusion 相比，3DIS-FLUX 在 ISR 上提高了 12.4%。更重要的是，3DIS 方法并不与现有的适配器方法互斥。例如，3DIS+GLIGEN 和 3DIS+MIGC 的组合在性能上超越了单独使用适配器方法，表现更加优越。

下图 3 提供了 3DIS 与其他最先进方法的视觉对比，结果表明，3DIS 不仅在场景构建上表现出色，而且在实例细节渲染上也有强大的能力。此外，3DIS 与各种基础模型兼容，提供了比以前方法更广泛的应用性。

不同模型的渲染比较
如表 1 所示，采用更强大的模型显著提高了渲染成功率。例如，使用 FLUX 模型进行渲染比使用 SD1.5 模型的实例成功率高出 9.9%。

消融研究

FLUX 细节渲染器
前面图 4 的结果表明，如果不使用细节渲染器来管理 FLUX 模型的联合注意力过程，在多实例场景中成功渲染每个实例将变得非常困难。下表 2 的数据表明，引入细节渲染器可以将实例成功率（ISR）提高 17.8%，成功率（SR）提高 12.2%。此外，图 4 的结果还表明，加入细节渲染器不会显著降低图像质量。

控制图像嵌入的注意力
表 2 的结果显示，在联合注意力机制中，控制每个图像标记仅关注其对应的实例描述标记（即 I2T 控制）对于成功渲染每个实例至关重要，这使得实例成功率（ISR）提高了 19.1%。此外，在过程的早期步骤中，限制每个实例的图像标记仅关注属于同一实例的其他图像标记（即 I2I 控制）也带来了显著的改进，使 ISR 提高了 7.5%。

控制文本嵌入的注意力
与使用 CLIP 作为文本编码器的模型（如 SD1.5、SD2和 SDXL ）不同，FLUX 使用 T5 文本编码器。该编码器仅在文本数据上进行预训练，生成的嵌入不包含视觉信息。因此，在联合注意力机制中，在多实例上下文中对文本标记施加约束变得尤为重要。正如前面表 2 和图 5 的结果所示，在联合注意力机制中，如果不对文本标记施加约束—允许一个实例的文本标记关注其他实例的文本标记—会显著降低渲染成功率，ISR 减少了 16.3%。此外，我们的分析还发现，添加约束，使得每个实例的文本标记仅关注其对应的图像标记，并未带来显著的改进。

结论

3DIS-FLUX，这是对先前 3DIS 框架的扩展。原始的 3DIS 探索了一种仅使用 U-net 架构的免训练渲染方法。与之相比，3DIS-FLUX 利用了最先进的 DiT 模型 FLUX 进行渲染。在 COCO-MIG 数据集上进行的实验表明，使用更强大的 FLUX 模型进行渲染使得 3DIS-FLUX 显著优于先前的 3DIS-SDXL 方法，甚至超越了最先进的基于适配器的 MIG 方法。3DIS-FLUX 的成功突显了 3DIS 框架的灵活性，它能够快速适应各种新的、更强大的模型。预计 3DIS 将使用户能够利用更广泛的基础模型进行多实例生成，并扩展其在更多应用场景中的适用性。

#3SIDGaussian

港理工团队开源：3张图0.2秒生成高清3D建模，PSNR暴涨0.4dB

本文提出了一种名为SIDGaussian的基于三维高斯散射的稀疏输入方法，有效生成渲染图像中的细节并保持多视图一致性。

导读
在新视图合成领域中，3DGS一直表现不俗，但在稀疏输入视图的情形下，渲染质量常会显著下降并导致细节缺失，然而在一些特殊的条件下，稠密的输入不一定能够得到保证，因此如何让稀疏的场景也充满细节，是3DGS领域的主要挑战。
为应对这一问题，该研究提出了一种稀疏视图3DGS方法，通过预训练的DINO-ViT模型提取特征进行语义正则化，以确保多视图语义一致性，并加入局部深度正则化来提升对未见视角的泛化能力，经过该改进，该方法在LLFF数据集上的PSNR可较现有前沿方案最高提升0.4dB，明显减少失真并增强视觉细节，为新视图合成提供了更优的解决方案。

论文标题：See In Detail: Enhancing Sparse-view 3D Gaussian Splatting with Local Depth and Semantic Regularization

论文作者：Zongqi He, Zhe Xiao, Kin-Chung Chan, Yushen Zuo, Jun Xiao, Kin-Man Lam

论文地址：https://arxiv.org/abs/2501.11508

▲图1｜细节重建展示

01 引入

该研究旨在通过从不同已知视点捕捉的一组图像，生成同一场景在未见过的视角下的逼真图像，同时保持多视图一致性。 新颖视图合成（NVS）技术对于理解三维世界至关重要，并在计算机视觉、图形学和机器人等实际应用中具有显著的工业价值。

基于神经辐射场（NeRF）的方法和基于三维高斯散射的方法是近年来表现出色的两种主要方法。然而，这两种方法通常需要来自密集视图的输入图像以生成高质量的未见视角图像，而在现实场景中往往难以满足这一条件。随着输入视图数量的减少，渲染质量不可避免地下降。目前，从稀疏输入生成新颖视图仍然是一个重大挑战。

近年来，已经提出了几种基于稀疏输入生成高质量三维场景的有前景的方法。例如，RegNeRF引入了一种深度平滑技术，以提高重建场景几何属性的准确性；DietNeRF通过鼓励由预训练的CLIP视觉变换器编码的视图在潜在空间中彼此靠近，从而增强语义一致性；SparseNeRF利用由预训练的密集预测变换器（DPT）估计的密集深度图，提取局部深度排序先验，促进空间连续性。尽管基于NeRF的方法在稀疏输入的新颖视图合成方面表现出色，但其较慢的推理速度和高计算需求限制了其在实时产品中的应用。最近，3DGS已被证明在实时高质量渲染三维场景方面有效，但其在稀疏输入新颖视图合成中的潜力尚未得到充分探索。

在本文中，提出了一种名为SIDGaussian的基于三维高斯散射的稀疏输入方法，有效生成渲染图像中的细节并保持多视图一致性。 由于基于稀疏输入生成高质量三维场景本质上是一个不适定问题，结合先验信息对于提升性能至关重要。为更好地解决这一问题，提出了一种语义正则化技术，通过最小化训练视图和侧视图渲染图像的语义特征在潜在空间中的距离，确保多视图语义一致性，这些特征由DINO-ViT提取。

稀疏输入的设置往往导致外观覆盖不足和几何信息有限，导致现有方法中的内容失真。为解决这一问题，进一步提出了一种局部深度正则化方法。该方法不是直接使用像DDPNeRF那样的密集深度图，而是对深度图进行局部归一化，并在局部区域内计算渲染深度与DPT深度图之间的皮尔逊相关系数。这种方法有效增强了场景的局部几何结构，并改善了生成输出的多视图一致性。

本文的主要贡献总结如下：

提出了一种名为SIDGaussian的三维高斯散射方法，用于基于稀疏输入的新颖视图合成，能够实现实时和高质量的三维场景渲染。
为确保多视图一致性，提出了一种语义正则化技术，保持渲染图像在不同视点之间的语义连贯性。此外，提出了局部深度正则化以减少失真并增强场景的细节几何结构。
实验表明，该方法显著优于最先进的新颖视图合成方法，在LLFF数据集上在PSNR方面提升了高达0.4dB。

该方法能够有效保持多视图一致性，并在最小失真的情况下生成视觉效果优越的结果。

02 具体方法与实现

该研究的方法流程如图2所示。具体而言，首先采用结构光法（Structure from Motion, SfM）构建稀疏点云，用于3DGS的初始化。 这一步骤利用SfM技术从输入的稀疏视图中提取相机参数和稀疏点云，确保初始的三维结构能够有效地反映场景的几何特征。随后，在训练过程中，针对每一个场景进行逐步优化。优化过程由三个主要部分共同监督：L0损失、提出的语义正则化以及局部深度正则化。

▲图2｜全文方法总览

从整个流程可以看出，本文的初始化阶段与3DGS的基本初始化过程具有相似性，都是依赖于SfM生成的稀疏点云进行三维高斯的初始化。然而，在训练优化阶段，由于输入图像数量稀少，传统的方法缺乏足够的监督信息，这导致生成的细节部分渲染效果不尽如人意。为了克服这一挑战，本文提出了两种新的监督方式，专门针对细节部分的内容进行优化。这两种监督方式主要通过局部深度和语义信息来实现，一方面从几何层面建立约束，另一方面从宏观的语义层面增强一致性。

我们先来建立一个初步的认识：语义正则化通过引入语义特征，确保从不同视点生成的图像在语义层面上保持一致。 使用预训练的DINO-ViT模型对训练视图和侧视图进行编码，并在潜在空间中最小化它们的语义特征距离，从而促进生成图像在语义上的连贯性和一致性。这一方法有效地提升了生成图像的整体语义质量，避免了由于视角稀疏导致的语义信息缺失问题。

另一方面，局部深度正则化通过对深度图进行局部归一化，并在局部区域内计算渲染深度与由预训练的Dense Prediction Transformer（DPT）生成的深度图之间的皮尔逊相关系数，从而增强了局部几何细节的准确性。这种方法不仅保留了全局深度信息的整体结构，还能够细致地捕捉到场景中不同尺度物体的局部几何特征，显著减少了由于深度信息不足导致的细节缺失和几何失真。

通过引入这两种新的监督方式，本文的方法在训练过程中能够更加有效地利用有限的输入图像，显著提升了渲染图像的细节质量和多视图一致性。具体而言，语义正则化确保了生成图像在语义上的一致性，而局部深度正则化则从几何层面增强了细节的准确性。这两者的结合使得3DGS在处理稀疏输入时，能够生成更加细腻和真实的三维场景。

因此，本文方法的核心创新在于这两个约束的建立与应用。 在具体的方法与实现部分，本文将详细介绍这两种监督方式的技术细节，包括语义正则化和局部深度正则化的具体实现步骤、损失函数的设计以及如何在训练过程中有效地结合这两种约束，以实现高质量的三维场景渲染。

▲图3｜语义监督以及深度监督的消融对比效果

■ 语义正则化

通过前面的初步引入，相信各位读者已经对语义正则化有了一点初步的认识，首先我们知道，语义正则化在重建场景的全局结构方面已被证明是有效的。该正则化方法的核心理念在于通过引入高层次的语义信息，指导模型在生成未见过的侧视图时能够保持与训练视图一致的语义内容，从而避免因视点稀疏导致的语义信息丢失和重建错误。具体而言，这种正则化方法鼓励生成的侧视图在语义上与训练视图具有相似的意义和内容分布。

在该研究的方法中，首先通过生成未在训练集中出现的侧视图，以模拟不同的观察角度。这些侧视图可能包含与训练视图不同的场景细节和视角信息。 为了捕捉和利用这些视图中的语义信息，研究采用了预训练的DINO-ViT模型对侧视图和训练视图进行特征编码。DINO-ViT作为一种先进的视觉变换器，能够提取图像的高层次语义特征，这些特征有效地表示了图像中的物体类别、结构和语义关系。

通过对侧视图和训练视图的特征进行编码，研究获得了对应的语义特征向量。语义正则化项被定义为这些编码后的特征向量之间的距离，即通过计算不同视点的语义特征向量之间的欧氏距离或其他度量方式，量化它们在语义空间中的相似度。具体而言，研究将侧视图渲染图像和训练视图图像的语义特征向量进行匹配，并最小化它们之间的距离。这一过程确保了不同视点生成的图像在语义上具有一致性，从而提升了重建场景的整体语义连贯性和准确性。

此外，语义正则化不仅有助于保持图像的语义一致性，还能够促进生成模型在处理复杂场景时更好地理解和保持场景中的关键结构和对象。通过这种方式，研究的方法能够在有限的输入视图下，生成具有高语义质量和细节丰富的三维场景渲染结果。这一语义正则化策略为模型提供了额外的约束和指导，显著提升了生成图像的整体质量和多视图一致性。

■ 局部深度正则化

先前的方法利用全局深度信息来促进三维几何结构的重建，但在处理包含多尺度不同物体的场景时效果有限。全局深度信息往往侧重于整体特征，忽略了深度信息的细节。为了克服全局深度信息在细节重建上的不足，该研究提出在侧视图上引入局部深度正则化，以增强三维物体的局部几何细节。具体来说，这一方法包括以下几个关键步骤：

深度图的局部归一化： 首先，对深度图进行局部归一化处理。局部归一化的目的是在每一个局部区域内调整深度值，使其均值为零，标准差为一。这一过程能够消除不同区域之间深度值的绝对差异，使得模型能够更专注于局部深度变化的相对关系，而不是依赖于全局的深度尺度。这种归一化方法有助于提升模型在不同局部区域内捕捉细节的能力，确保在多尺度场景中各个物体的细节部分都能得到充分的重建。

局部区域内的深度相似性： 在进行局部归一化后，研究鼓励渲染深度图与由预训练的密集预测变换器（Dense Prediction Transformer, DPT）生成的深度图在每个局部区域内保持相似性。具体而言，通过计算渲染深度图和DPT深度图在局部区域内的皮尔逊相关系数（Pearson Correlation），量化它们之间的相似度。皮尔逊相关系数是一种衡量两个变量线性相关程度的统计量，能够有效减轻深度尺度不一致带来的影响。通过最大化这一相似性，模型能够更准确地重建局部几何细节，确保生成的三维场景在各个局部区域内都具有高精度的几何结构。

多尺度细节的保留： 局部深度正则化不仅提升了局部区域的深度准确性，还能够有效保留多尺度细节。在复杂场景中，不同尺度的物体可能需要不同的深度处理策略。通过在多个局部区域内分别进行深度归一化和相似性计算，模型能够自适应地调整各个区域的深度信息，确保大尺度物体的整体结构和小尺度物体的细节部分都能得到合理的重建。这种方法避免了全局深度信息在多尺度场景中的局限性，使得生成的三维模型在不同尺度下都能保持高度的一致性和细节丰富性。

优化过程中的约束： 在训练过程中，局部深度正则化作为一个重要的约束项被引入总损失函数中。具体而言，研究将渲染深度图与DPT生成的深度图的局部相似性作为一个独立的损失项加入到总损失函数中，确保在优化过程中不仅关注全局深度一致性，还重视局部几何细节的准确性。通过这种多层次的约束，模型能够在稀疏输入条件下，生成具有高精度和高细节的三维场景。

■ 综合损失函数

总损失函数由多个加权部分组成，包括L0损失、语义正则化损失和深度正则化损失。 这些部分的权重是超参数，通过组合这些损失项，该方法能够在优化过程中平衡各方面的要求，最终实现高质量的三维场景渲染。

03 实验

该研究在本地光场融合（Local Light Field Fusion, LLFF）数据集上进行了实验。 LLFF数据集包含8个场景用于训练和测试，每个场景由20到62张来自不同视点的图像组成。

按照既定配置，研究选择每第八张图像作为测试集，并从剩余图像中均匀采样三视角用于训练。在训练和测试过程中，研究的方法在图像的1/8和1/4比例下实现。为了实现局部深度正则化，研究将从深度图中提取的局部补丁大小设定为126×126。迭代次数固定为1.2万次。所有实验均在NVIDIA RTX 4090 GPU上进行。

模型性能通过峰值信噪比（PSNR）和结构相似性指数（SSIM）来评估重建质量，并通过学习感知图像补丁相似性（LPIPS）来衡量渲染图像的感知质量，数值实验结果由图4所示，能够看到该研究的数值能够跑赢对比的方法（红色染色部分）。

▲图4｜不同分辨率下多数据集对比数值实验

作者还对渲染的效果进行了可视化，如图5所示。

▲图5｜细节渲染可视化

研究还通过消融实验探讨了所提出方法的两个方面：语义正则化和局部深度正则化。通过在LLFF数据集上的定量和视觉结果，研究展示了语义正则化如何显著提升渲染结果的质量，结果如图6和图7所示，这两个实验的结果进一步证明了增强语义一致性的有效性。

▲图6｜消融实验数值结果

▲图7｜消融实验中深度和语义监督对PSNR的综合影响

由此可见，局部深度正则化进一步提高了渲染质量，提供了更精确的细节。此外，研究表明了语义正则化和深度正则化权重的对于3DGS的训练有不同的敏感性（如图7），通过调整相应的权重值，对模型性能的影响各不相同，因此可以根据所需要的重建和渲染的场景自适应的调整其权重，最终获得满意的重建效果。

04 总结

本文聚焦于基于稀疏输入的新颖视图合成，提出了一种稀疏视角的三维高斯散射模型，称为SIDGaussian。 为了确保多视图一致性，研究提出了一种语义正则化技术，旨在保持渲染图像在不同视点之间的语义连贯性。此外，研究还提出了一种局部深度正则化方法，以减轻内容失真并增强渲染图像的细节信息。实验结果表明，所提出的SIDGaussian在LLFF数据集上的峰值信噪比（PSNR）和学习感知图像补丁相似性（LPIPS）指标上显著优于其他最先进的方法，提升幅度高达0.4dB。该方法生成的图像在视觉质量上表现最佳，失真程度较低。

#CityGaussianV2

高效重建几何精准的大规模复杂三维场景，中科院提出

用于大规模复杂三维场景的高效重建算法CityGaussianV2，能够在快速实现训练和压缩的同时，得到精准的几何结构与逼真的实时渲染体验。

是否还在担心大规模场景训练和压缩耗时太长、显存开销太大？是否还在苦恼重建出的建筑物和道路表面破碎不堪？是否还在困扰如何定量衡量大规模场景几何重建的精确程度？

来自中科院自动化所张兆翔教授团队提出了用于大规模复杂三维场景的高效重建算法CityGaussianV2，能够在快速实现训练和压缩的同时，得到精准的几何结构与逼真的实时渲染体验。该论文已接受于ICLR'2025，其代码也已同步开源。

论文题目：CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes

项目主页: https://dekuliutesla.github.io/CityGaussianV2

论文链接: https://arxiv.org/pdf/2411.00771

代码链接(600+⭐): https://github.com/DekuLiuTesla/CityGaussian

研究背景

三维场景重建旨在基于围绕目标场景拍摄的一组图像恢复出场景的三维结构，其核心追求是精准的几何结构以及逼真的图像渲染。随着近两年的发展，3D Gaussian Splatting（3DGS）因其训练和渲染效率上的优势逐渐成为该领域的主流算法。这一技术使用一组离散的高斯椭球来表示场景，并使用高度优化的光栅器进行渲染。然而，这一离散且无序的表征形式通常难以很好地拟合物体表面的实际分布，导致重建出的场景几何结构并不精准。近来包括SuGaR、2DGS、GOF在内的一系列杰出工作针对这一问题进行了探索，并给出了有效的解决方案。

几何重建质量可视化比较

尽管这些技术在单一目标或小场景上取得了巨大的成功，但它们应用于复杂的大规模场景却往往面临比3DGS更加严峻的挑战。上图展现了不同算法在大规模场景下的几何重建效果。SuGaR的模型容量有限，难以还原精细的几何结构；GOF受到严重的模糊鬼影的干扰，许多视角下画面被鬼影完全遮挡，以至于监督失效，重建结果面对显著的欠拟合；2DGS受到模糊鬼影的影响较弱，但也妨碍了其收敛效果，并且退化现象容易诱发高斯基元的过度增长，进而引起显存爆炸，训练难以为继。

此外，大规模场景下长期以来缺少几何重建质量的有效评估手段，已有的工作或只进行了可视化定性比较，或忽视了欠观测区域不稳定的重建效果对指标产生的干扰。大规模场景的重建往往还意味着显著的训练开销，要重建1.97〖km〗^2的区域会产生接近两千万的高斯点，这意味着4.6G的存储以及31.5G的显存开销，以及超过三小时的训练时长。如果要进一步完成压缩，通常还需要额外将近一个小时的时间。

针对这三方面的技术挑战，本文提出了CityGaussianV2。该算法继承了CityGaussian的子模型划分与数据分配方案，并使用2DGS作为基元来重建。在此基础上，CityGaussianV2引入了基于延展率过滤和梯度解耦的稠密化技术，以及深度回归监督，同时合并了训练和压缩过程，得到了端到端的高效训练管线，不仅有效加速算法收敛，同时保障了稳定、快速、低显存开销的并行训练。

二、CityGaussianV2算法介绍

1.场景重建基础

3DGS使用一组高斯分布表征的椭球对场景进行表征，每个高斯球同时绑定包括不透明度、颜色以及高阶球谐系数等用于alpha blending渲染的属性，并通过包含L1损失和SSIM损失的加权和对渲染质量进行监督。在训练过程中，算法还会根据每个高斯基元的梯度信息进行自适应地分裂和克隆，使得重建效果不佳的区域能够自动被更合适的基元填充。2DGS旨在增强几何重建精度，并将椭球降维为椭圆面片作为基元表征场景，同时对渲染出的深度和法向量分布施加监督，保证重建表面的平整性。

CityGaussian旨在将3DGS泛化到大场景，首先预训练一个表征全局场景的粗粒度的3DGS场，随后将预训练结果划分为一系列子模型，并根据子模型对训练视图渲染的贡献程度为每个子模型分配训练数据。每个子模型随后会用不同的GPU并行微调，并在训练结束后进行合并和压缩，得到场景的最终表征。

2.CityGaussianV2的优化算法

高斯基元优化算法示意图

现有表面重建方案在泛化到大场景时往往展现出收敛迟缓、训练不稳定等问题，导致并行训练失败，难以取得良好的重建效果。我们的算法以泛化能力最好的2DGS为基元，在引入Depth-Anything-V2的伪深度监督提供几何先验的基础上，进一步提出了新的高斯基元稠密化方案。我们观察到，在复杂大规模场景上，2DGS在早期训练阶段比3DGS受到更严重的模糊伪影的干扰，导致在迭代次数有限的情况下性能显著劣于3DGS。为了缓解这一问题，我们引入梯度解耦策略，利用对图像结构差异更为敏感的SSIM损失作为稠密化的主要梯度来源：

此处ω用于控制梯度的尺度；另外在大规模场景下用2DGS进行重建的障碍在于其退化现象。实验证据表明，当从远距离或侧面视角渲染时，部分面片可能会退化成线或点，尤其是那些延展率比较高的面片。对于那些具有高不透明度的投影点，它们的移动往往意味着像素值的剧烈变化，从而使得它们获得较高的梯度，并在稠密化过程中大量增殖，导致基元数量指数级增长，最终导致显存爆炸问题。为了解决这一问题，在稠密化过程中，我们对容易引起退化和梯度集中的具有极端延展率的高斯面片进行了筛选，并对其增殖过程进行了限制，从而在不牺牲性能的情况下有效稳定了训练过程，保障了优化过程的顺利进行。

3.CityGaussianV2的并行训练管线

CityGaussianV2训练管线，虚线框为摒弃的算法流程

CityGaussianV2 在V1的基础上进一步优化了并行训练管线，使得训练和压缩过程得到统一，删除了冗余的后处理流程。具体而言，算法在子模型的并行训练过程中周期性地遍历训练视角集合并计算每个高斯基元的重要性分数：

其中为第张训练视图的像素几何，为第个基元的不透明度。以此为基础，重要性低于一定百分比阈值的基元会被删除，从而降低显存和存储的开销，使得训练对于低端设备更友好，也显著加速了模型总体的收敛速度。

4.大规模重建几何评估协议

大规模场景几何精度评估流程

CityGaussianV2填补了大规模场景下几何评测协议长期以来的空白，在Tanks and Temple (TnT) 数据集的启发下，基于点云的目击频次统计设计了针对大规模场景欠观测区域的边界估计方案。具体而言，点云真值会首先被初始化为3DGS，在遍历所有训练视图的同时记录每个点的观测频次，观测频次低于阈值的点将被滤除；剩余的点将用于估计垂直方向的高度分布范围，以及地平面内的多边形外接轮廓，二者构成的Crop Volume进一步用于TnT形式的指标计算。这一方案有效规避了欠观测区域重建效果不稳定带来的指标波动，使得大规模复杂场景的几何性能评估更为客观公正。

三、实验与分析

与主流算法的性能对比

在实验中，相比于已有算法，CityGaussianV2在几何精度（精度P，召回率R，综合指标F1-Score）方面达到了最佳的性能表现。从可视化结果中也可以看到，CityGaussianV2的重建结果具有更准确的细节，完整性也更高。而渲染质量方面，CityGaussianV2则达到了和V1相媲美的程度，能够带来逼真的浏览体验。此外，CityGaussianV2还能较好地泛化到街道景观，并且在渲染质量和几何精度上都取得良好的性能结果。

渲染质量可视化比较

街拍场景可视化比较

高斯基元数量相近情况下的重建性能及训练开销比较

在训练开销方面，CityGaussianV2克服了2DGS泛化到大规模复杂场景下的种种挑战，不仅有效规避显存爆炸问题，而且实现了相对于V1显著的显存优化，同时在训练用时和几何质量方面大幅领先。针对2DGS的量化压缩策略也使得大规模场景的重建结果能够以400M左右的开销存储下来。

四、总结

本工作致力于大规模复杂场景的高效精准重建，并建立了大规模场景下的几何精度评估基准。所提出的CityGaussianV2 以 2DGS 为基元，消除了其收敛速度和扩展能力方面的问题，并实现了高效的并行训练和压缩，从而大大降低了模型的训练成本。在多个具有挑战性的数据集上的实验结果证明了所提出方法的效率、有效性和鲁棒性。

#Intent3D

3D意图定位：AI仅凭人类的意图就能完成三维空间的定位!

图一

图一： 3D 意图定位（右），这一新任务旨在根据人类意图句子（例如：“我想要一个能支撑我的背部、缓解压力的物品”），在 3D 场景中通过 3D 边界框检测目标物体。相比之下，现有的 3D 视觉定位（左）依赖于人类的推理和参考来进行检测。该示意图清晰地区分了观察和推理的执行方式：左侧由人类手动完成，右侧则由 AI 自动完成。

项目主页：https://weitaikang.github.io/Intent3D-webpage/
论文地址：https://arxiv.org/abs/2405.18295
项目代码：https://github.com/WeitaiKang/Intent3D

🎯 介绍

在现实世界中，AI 能够根据自然语言指令执行目标检测，对人机交互至关重要。过去的研究主要集中在视觉指引（Visual Grounding），即根据人类提供的参照性语言，在2D图像或3D场景中定位目标物体。然而，人类在日常生活中寻找目标物品往往是起源于某个特定的意图。例如，一个人可能会说：“我想找个东西靠着，以缓解背部压力”，而不是毫无理由的直接描述“找到椅子”或“找到沙发”。

什么是 3D 意图定位（3D-IG）？

目前，3D 视觉指引（3D Visual Grounding, 3D-VG）方法依赖用户提供明确的参照信息，如目标的类别、属性或空间关系。但在许多现实场景下，例如人在忙碌或有视觉障碍时，无法提供这样的参照描述。

因此，让 AI 能够自动推理用户的意图并检测目标物体，才是更智能、更自然的交互方式。如图一所示，相较于传统 3D-VG（左图）， 3D-IG 任务（右图）能够让 AI 直接基于用户的意图推理目标，而无需明确的物体描述。

为什么选择 3D 而非 2D？

近年来，基于意图的推理任务在 2D 视觉领域有所研究，如意图导向的目标检测（Intention-Oriented Object Detection）、隐式指令理解（Implicit Instruction Understanding）等。然而，这些研究仅限于 2D 视角，无法完整反映现实世界的几何和空间信息。

相比之下，3D 数据更加贴近现实世界，不仅包含深度信息，还能提供完整的物体几何、外观特征以及空间上下文。因此，在 3D 场景中进行意图推理，不仅能更准确地模拟真实需求，还能推动智能体（Embodied AI）、自动驾驶、AR/VR等领域的发展。

📦 数据集 & 基准

为了推动 3D 意图定位研究，该论文构建了 Intent3D 数据集，包含 44,990 条意图文本，涉及 209 类物体，基于 1,042 个 ScanNet 点云场景。由于意图表达的多样性，使用预定义格式进行标注会限制模型的泛化能力。

此外，众包标注往往缺乏可靠性，而专业标注成本高且难以扩展。因此，如图二所示，采用 GPT-4 生成意图文本，并经人工质量检查，确保高准确性和多样性。

图二

图二：（上排）数据集构建流程图。构建场景图后，根据三个标准选择对象：常见对象、非平凡对象、无歧义对象。使用 ChatGPT 根据设计的提示生成意图文本。最后，手动清理数据。（下排）数据集中针对不同目标数量和文本长度的示例。

其次，为了充分评估目前解决这个问题的研究能力，使用三种主要的基于语言的 3D目标检测技术为基准构建了几个基线。

这涉及使用以下模型评估数据集：专门为 3D 视觉定位设计的专家模型（BUTD-DETR, EDA）、为通用 3D 理解任务制定的基础模型（3D-VisTA）以及基于大型语言模型 (LLM) 的模型（Chat-3D-v2）。使用多种设置评估这些基线，即从头开始训练、微调和零样本。

⚙ 方法

如何解决 3D 意图定位问题？

如图三所示，设计了一种新方法 IntentNet，结合多个关键技术：

动宾对齐（Verb-Object Alignment）：先识别意图中的动词，再与相应宾语特征进行对齐，提高意图理解能力。
候选框匹配（Candidate Box Matching）：在稀疏 3D 点云中显式匹配候选目标框，提高多模态意图推理能力。
级联自适应学习（Cascaded Adaptive Learning）：根据不同损失函数的优先级，自适应调整损失函数权重，提升模型性能。

图三

图三：IntentNet：（骨干网络）PointNet++ 用于提取点特征；MLP 编码 3D 目标检测器预测的框；RoBERTa 编码文本输入。（编码器）基于注意力的块用于多模态融合，通过与文本特征的集成来增强框特征。（解码器）具有最高置信度的前 k 个点特征被选择为提出的查询（query），然后通过基于注意力的块进行更新。几个 MLP 用于线性投影查询，以便进行后续的损失计算。（损失函数）该模型学习使用 L_bce 将候选框与目标对象进行匹配; 查询（query）被训练以识别动词 (L_vPos)，与动词对齐 (L_vSem)，并与宾语对齐 (L_voSem)。

🔬 实验

由于对意图语言理解和推理进行了显式建模， IntentNet 明显优于所有以前的方法。

与验证集上的第二佳方法相比，在 Top1-Acc@0.25 和 Top1-Acc@0.5 中分别实现了 11.22% 和 8.05% 的改进。此外，分别将 AP@0.25 和 AP@0.5 提高了 9.12% 和 5.43%。

同样，在测试集在 Top1-Acc@0.25 和 Top1-Acc@0.5 中分别获得了 11.06%、10.84% 的改进；在 AP@0.25 和 AP@0.5 中分别获得了 6.72%、5.6% 的改进。

图四：实验结果