51c视觉~3D~合集2

我自己的原文哦~      https://blog.51cto.com/whaosoft/13422809

#中科大统一内外参估计和3DGS训练

这下真的不用相机标定了?

同时优化相机的内外参和无序图像数据

在给定一组来自3D场景的图像及其相应的相机内参和外参的情况下,3D高斯喷溅(3DGS)能够使用一系列3D高斯来有效地表示场景,并从新视角生成高质量的图像。由于其高效的训练过程以及在测试阶段的卓越性能,3DGS已被广泛应用于场景重建、编辑以及增强现实(AR)/虚拟现实(VR)等多个领域。然而,3DGS的训练效果严重依赖于预先精确确定的相机姿态(即相机外参)和相机焦距(即相机内参)。这些参数通常需要使用COLMAP进行预处理。然而,该预处理步骤不仅耗时,还会影响3DGS的训练性能,尤其是在处理复杂的相机运动和场景时。

近期研究试图放宽对输入数据的要求。这些方法通常假设输入数据是按顺序排列的,并且已知相机的焦距。然而,与这些方法不同,我们的目标是同时优化相机的内参和外参,同时处理无序的图像数据,并探索相机参数与3DGS训练之间的关系

为了解决这一问题,首次提出了一种联合优化方法[1],以在不依赖相机内参和外参的情况下,从一组图像中训练3DGS。具体而言,与以往仅在训练过程中更新相机姿态的方法不同,我们还从理论上推导出了焦距的梯度,以便通过反向传播同时优化相机内参,从而实现相机参数和3D高斯的统一学习。此外,为了提高训练的稳定性,我们进一步整合了全局轨迹信息,并选择与轨迹点对应的3D高斯。在训练过程中,这些跟踪的3D高斯会动态调整其大小,逐渐缩小至极小尺寸,并无限逼近真实的空间点,使其能够更精确地分布在实际表面附近。利用重投影损失,我们能够不断优化这些点的位置以及相机参数,以满足几何约束。此外,其余的3D高斯仍然保持原本的功能,并且所有3D高斯都会受到损失函数的约束。借助这种混合表示方法,我们无缝地将相机参数优化与3DGS训练结合在一起。

在公共基准数据集以及我们合成的虚拟数据集上进行了广泛的评估。与以往方法相比,我们的方法仅需一组图像作为输入,就能在相机参数估计和新视角合成方面取得最先进(SOTA)的性能。

主要贡献

  • 从理论上推导了焦距对3DGS训练的梯度,使得相机内参能够在训练过程中进行优化,从而彻底消除3DGS训练对相机参数的任何先验需求。
  • 据我们所知,我们首次提出了一种相机参数与3DGS的联合优化方法。我们通过初始化一组3D高斯,并施加轨迹和尺度约束,使得我们能够应用多视角一致性和重投影损失来估计相机参数,从而实现更鲁棒的3DGS训练。
  • 在公共数据集和合成数据集上,我们的方法超越了以往需要相机内参的方法,并在新视角合成任务上达到了当前最优(SOTA)性能。

具体方法

给定一组图像 ,其中每张图像  的相机外参表示为 ,相机内参矩阵表示为 。本方法的目标是同时获取相机的内参和外参,以及3D高斯喷溅(3DGS)模型,如图2所示。由于引入了额外的变量(即相机参数),我们对原始3DGS进行了多项关键改进。

首先,作为理论支撑,我们推导了相机内参的梯度,使得这些参数可以在训练的反向传播过程中进行更新。此外,我们结合全局轨迹信息,并选择与轨迹点对应的高斯核。利用重投影损失,我们进一步约束了3DGS和相机参数的优化,使其符合多视角几何一致性。为了确保计算重投影误差不会影响其余3D高斯的作用,我们要求跟踪的高斯核自动缩放至极小尺寸,并分布在场景的实际表面附近。接下来,我们提出了一种高效的联合优化方案来完成训练。

相机参数的梯度推导

要同时优化3D高斯的相机参数,我们需要计算损失函数  对相机参数的梯度。对于相机外参,梯度表示如下:

其中,  ,而 。

进一步设  为投影到2D的中心点和协方差矩阵,那么焦距  的梯度可通过链式法则计算如下:

最终,损失函数  对相机内参  的梯度可表示为:

在推导梯度时不受特定损失函数的限制,只要损失函数是可微的即可。

初始化

为相机参数和3D高斯提供更好的初始值有助于加速收敛并避免陷入局部次优解。为了保证通用性,我们构建了一个最大生成树(MST),其边权表示两张图像之间的匹配点数量。利用MST,我们可以获得图像级匹配对及点级对应关系,从而提取全局轨迹信息(请参考补充材料获取详细信息)。随后,相机参数和3D高斯的初始化方法如下。

相机参数初始化

我们假设所有相机均采用标准的针孔模型、无畸变,且主点位于图像中心,则相机内参矩阵  定义为:

其中,  为主点坐标,  为焦距。经验上,我们用60°的视场角(FoV)来初始化焦距:

对于MST中的每条边 ,我们利用图像的单目深度信息(如DPT[17])来估计点云,并定义重投影损失来优化其相关变换矩阵:

通过最小化所有匹配对的重投影损失,我们可以初步获得相机的内参和外参。

3D高斯初始化

我们从MST提取一组轨迹点 ,其中每个轨迹点  由3D轨迹点  及其对应的像素匹配点  组成。轨迹点  的初始化方式如下:

值得注意的是,我们仅使用轨迹点来初始化3D高斯,而它们的具体位置会在后续的全局优化和约束中进一步调整,以准确表示物体表面。由于某些点的深度估计存在误差,其距离真实表面较远,因此不适合直接用于3D高斯初始化。

联合优化

由于我们需要同时优化相机的内参、外参以及3D高斯参数,训练的复杂度大幅增加。原始损失函数(公式4)仅依赖光度信息,在约束相机参数方面不足。为了解决这一问题,我们提出了一种多视角几何一致性约束的方法,通过跟踪匹配点轨迹来增强联合优化能力。值得注意的是,我们利用初始化的3D高斯质心来维护3D轨迹点,从而保证这些3D高斯在优化过程中得以保留,并可用于计算投影误差,以评估相机参数的准确性。为此,我们定义了两个额外的约束项。

轨迹损失

为了度量多视角几何一致性,我们将3D轨迹点  投影到所有对应的图像中,并计算投影误差:

总轨迹损失为:

尺度损失

3D轨迹点实际上位于场景中的物体表面。为了确保跟踪的3D高斯质心与实际物体表面对齐,并减少投影误差,我们引入了尺度损失:

总体目标

结合公式4,我们的联合优化目标可表示为:

此方法实现了相机参数优化与3DGS训练的无缝结合,有效提升了模型在新视角合成和相机参数估计方面的性能。

实验效果

总结一下

本文介绍一种新的联合优化方法,使得3DGS能够在无需相机内参和外参的情况下进行训练。为解决这一问题,我们首先推导出了相机内参的梯度,使得这些参数能够在反向传播过程中进行优化。此外,我们整合了全局轨迹信息,并选择与每个轨迹相关的高斯核进行训练。我们进一步将两种新的损失函数——轨迹损失和尺度损失,与原始3DGS的光度损失结合在一起。广泛的实验评估表明,我们的方法在公共数据集和复杂的合成数据集上均超越了以往需要相机内参的方法,并在新视角合成任务上达到了当前最优(SOTA)性能。

局限性:假设所有相机均遵循标准针孔模型,无畸变,并共享相同的内参。

参考

[1] No Parameters, No Problem: 3D Gaussian Splatting without Camera Intrinsics and Extrinsics

#DSPNet

探索3D场景推理问答新高度:双视觉感知网络

0.背景信息

在人工智能的前沿领域,3D场景问答(3D QA)正在成为视觉与语言理解的关键挑战。相比于传统的2D视觉问答(VQA),3D QA需要模型不仅能够感知复杂的三维空间结构,还要理解语言描述与场景之间的关系。然而,目前的3D QA方法大多依赖于3D点云数据,而忽视了多视角图像提供的丰富局部纹理信息,这使得模型在面对小型、扁平物体时表现受限。

在这一背景下, 研究人员提出了一种名为DSPNet(Dual-vision Scene Perception Network)的新型网络架构,它融合了点云与多视角图像信息,实现更鲁棒的3D场景问答推理。

1.论文信息

  • 标题:DSPNet: Dual-vision Scene Perception for Robust 3D Question Answering
  • 作者:Jingzhou Luo, Yang Liu, Weixing Chen, Zhen Li, Yaowei Wang, Guanbin Li,Liang Lin
  • 机构:中山大学、香港中文大学(深圳)、鹏城实验室
  • 原文链接:http://arxiv.org/abs/2503.03190
  • 代码链接:https://github.com/LZ-CH/DSPNet

2. 挑战与解决方案

现有的多数3D QA方法主要依赖3D点云(比如ScanQA和3DGraphQA),通过检测和建模物体之间的关系来推理问题答案,而忽略了多视角图像对于全面 3D 场景感知和推理的关键作用。

例如,考虑图 1 中给出的问题“电视位于图画的哪一侧?”不仅需要识别几何场景中的实体,还需要理解场景实体和问题之间复杂的语义和空间关系。然而,现有的 3D QA 模型仅依靠点云信息很难准确识别一些扁平和小物体(例如电视、图片、地毯、手机等),而多视角图像可以通过丰富的局部纹理细节弥补这一点。

图 1 通过双视觉(点云和多视角图像)实现更全面的场景感知

由于相机位姿噪声、视角缺失和遮挡问题,简单采用多视角图像的反投影(back-projection)来融合特征,往往会导致特征退化,影响QA模型的稳定性。如图 2(a) 所示,在多视角特征聚合过程中,若对所有视图赋予相同的权重,可能无法充分考虑不同视图对特定任务的重要性。理想情况下,各视图的贡献应依据具体问题动态调整。此外,如图 2(b) 所示,由于相机位姿固有噪声、部分视角的缺失以及复杂的遮挡,在将多视角图像反投影到 3D 点云空间时,特征退化在所难免。

图 2 反投影的固有局限性。红色点表示反投影期间遗漏的点(即无效点),红色椭圆突出显示与原始点云特征相比明显退化的区域。

DSPNet旨在解决上述问题,通过双视角感知策略,使得3D QA模型能够同时利用点云与多视角图像信息:

  1. 基于文本引导的多视角融合(TGMF):融合多视角图像特征,在多视角特征融合过程中也能考虑文本上下文语境,促进挖掘更有利于回答问题的视角图像特征。
  2. 自适应双视觉感知(ADVP):逐点逐通道地自适应融合源于点云与图像的特征,缓解在多视角图像在反向投影过程中存在的特征退化问题
  3. 多模态上下文引导推理(MCGR):执行跨模态的高效交互与推理,综合利用较为密集的与下采样后的较为稀疏的视觉特征,在节省计算资源的同时,还能兼顾感知理解细致的场景信息。

3. 方法简介

3.1 网络架构

图 3 DSPNet的总体架构

DSPNet的整体架构如图 3所示,包括文本编码器、点云编码器、多视角图像编码器三大输入模块,以及TGMF、ADVP和MCGR等关键模块。

  • 文本编码器:采用Sentence-BERT(SBERT)提取上下文信息,并对情景描述与问题进行编码。
  • 点云编码器:使用PointNet++提取点云特征,保留空间结构信息。
  • 图像编码器:利用Swin Transformer提取多视角图像特征,增强局部纹理感知能力。

3.2 核心模块解析

(1)基于文本引导的多视角融合(TGMF)模块

  • 如图4,该模块执行反向投影,并通过计算文本内容与多视角图像的注意力,对不同视角在特征融合时赋予不同权重,从而使得多视角融合过程中能优先考虑与文本相关的视角。
  • 步骤1:根据相机参数,将多视角图像特征反向投影到3D点云坐标空间。
  • 步骤2:利用跨模态注意力机制根据文本与视角池化特征的相互注意力计算每个视角的权重,使得与问题相关的视角获得更高关注度。
  • 步骤3:融合加权后的多视角特征,形成融合后的视觉信息。

图 4 文本引导的多视角融合(TGMF)模块旨在融合多视图特征。

(2)自适应双视觉感知(ADVP)模块

  • 传统的点云与多视角图像融合方法难以应对特征退化问题,如图 5所示,ADVP模块通过逐点逐通道的注意力机制来动态调整特征的权重:
  • 步骤1:拼接点云特征和回投后的多视角特征。
  • 步骤2:使用MLP学习自适应权重。
  • 步骤3:使用加权增强高置信度特征,同时抑制低置信度特征。并最终使用一层全连接层映射到统一的特征空间。

图 5 自适应双视觉感知(ADVP)模块旨在自适应地感知来自点云和多视角图像的视觉信息。

(3)多模态上下文引导推理(MCGR)模块

  • MCGR模块旨在通过跨模态交互,综合利用密集与稀疏的视觉特征,在节省计算资源的同时,能兼顾感知理解细致的场景信息(见图 3的MCGR模块)。
  • 步骤1:使用最远点采样(FPS)提取较为稀疏的关键点级别特征,减少计算量。引入位置编码,保持空间信息完整性。
  • 步骤2:在MCGR子层中,稀疏的点特征通过cross-attention与密集点特征进行交互,并采用跨模态Transformer,与文本信息进行深度融合。这避免了密集点特征直接与文本进行交互,既降低了计算成本,又确保了空间视觉信息的完整性。
  • 步骤3:通过堆叠L层的MCGR子层,来将视觉信息与文本信息进行深度融合,提高空间推理能力。

4. 实验部分

4.1 在SQA3D上的表现

如表 1所示,DSPNet在“What”、“How”和“Other”问题类型上取得最佳结果,并且在平均准确率方面优于其他方法,包括使用了外部3D-文本成对数据集预训练的方法。这证明了DSPNet具有强劲的多模态空间推理能力。

表 1 在SQA3D数据集上的问答准确率。测试集栏中:括号内表示各题型的样本数。最好结果以粗体显示,次好结果以下划线显示。

4.2 在ScanQA上的表现

如表 2所示,DSPNet在大多数评估指标上都优于现有的代表性方法,尤其是在 CIDEr、ROUGE 和 METEOR 中,它明显超越了其他方法。

表 2 ScanQA 上的答案准确率。每个条目表示“有对象测试”/“无对象测试”。最佳结果以粗体标记,次佳结果以下划线标记。

4.3 消融实验

如表 3所示,实验表明,TGMF、ADVP和MCGR这三个模块对提升DSPNet的3D空间推理能力至关重要。进一步验证了DSPNet的方法有效性。

表 3 各组件的消融研究。在 ScanQA 数据集的验证集和 SQA3D 数据集的测试集上进行,使用 EM@1 作为评测指标。

如表 4所示,去除DSPNet的2D模态,仅使用点云作为视觉信息来源,此时模型在两个评测集上的准确率大幅下降,这进一步验证了多视角图像在三维场景问答任务中的重要性。

表 4 使用 2D 模态的有效性消融研究

5. 定性研究

如图 6所示,DSPNet 在感知和推理一些具有挑战性的实体方面表现更好,例如那些具有平面形状和丰富局部纹理细节的实体,这些实体仅基于点云几何形状难以识别。此外,DSPNet 可以区分细微的颜色差异,例如白色和银色之间的差异,从而增强了其在识别细粒度视觉区别方面的鲁棒性。

图 6 DSPNet方法与 ScanQA 和 SQA 的定性比较

6. 结论

该论文提出了一种用于3D问答的双视觉感知网络 DSPNet。DSPNet 通过基于文本引导的多视角融合(TGMF) 模块融合多视角图像特征,并采用自适应双视角感知(ADVP)模块,将图像与点云特征融合为统一的表征。最终,引入多模态上下文引导推理(MCGR) 模块,实现对3D场景的综合推理。实验结果表明,DSPNet 在 3D问答任务中优于现有方法,预测答案与参考答案在语义结构上的对齐性更好,表现更加出色。

#PointVLA

如何将3D数据融入VLA模型?

三维数据增强预训练VLA模型

视觉-语言-动作(VLA)模型通过利用大规模二维视觉-语言预训练,在机器人任务中表现出色。但其对RGB图像的依赖限制了在真实世界交互中至关重要的空间推理能力。使用三维数据对这些模型进行重新训练在计算上是难以承受的,而丢弃现有的二维数据集则会浪费宝贵的资源。为了弥合这一差距,我们提出了PointVLA,这是一个无需重新训练,就能通过点云输入来增强预训练VLA模型的框架。我们的方法会冻结原始的动作专家模块,并通过一个轻量级的模块化块注入三维特征。为了确定集成点云表示的最有效方式,我们进行了skip block分析,以找出原始动作专家模块中不太有用的块,确保三维特征仅注入到这些块中,从而将对预训练表示的干扰降至最低。

大量实验表明,在模拟和真实世界的机器人任务中,PointVLA的表现优于最先进的二维模仿学习方法,如OpenVLA、Diffusion Policy和DexVLA。我们强调了通过点云集成实现的PointVLA的几个关键优势:(1)少样本多任务处理,PointVLA仅使用每个任务20个演示样本就能成功执行四种不同的任务;(2)真实物体与照片的判别,PointVLA利用三维世界知识区分真实物体与其图像,从而提高安全性和可靠性;(3)高度适应性,与传统的二维模仿学习方法不同,PointVLA使机器人能够适应训练数据中未见过的不同桌面高度的物体。此外,PointVLA在长视野任务中也取得了优异的性能,例如从移动的传送带上拾取和包装物体,展示了其在复杂、动态环境中的泛化能力。

领域介绍

机器人基础模型,尤其是视觉-语言-动作(VLA)模型,在使机器人能够感知、理解和与物理世界交互方面展现出了卓越的能力。这些模型利用预训练的视觉-语言模型(VLMs)作为处理视觉和语言信息的backbone,将它们embedding到一个共享的表示空间中,随后转化为机器人动作。这一过程让机器人能够以有意义的方式与环境进行交互。VLA模型的优势在很大程度上取决于其训练数据的规模和质量。例如,OpenVLA在4000小时的开源数据集上进行训练,而像这样更先进的模型则利用10000小时的专有数据,从而显著提高了性能。除了这些大规模基础模型外,许多项目还贡献了从真实世界中物理机器人上的人类演示中收集的大量数据集。比如,AgiBot-World发布了一个包含数百万条轨迹的大型数据集,展示了复杂的人形机器人交互。这些预训练的VLA模型,以及开源机器人数据集,通过提供丰富多样且高质量的训练数据,极大地推动了机器人学习的发展。

尽管取得了这些进展,但大多数现有的机器人基础模型都是在二维视觉输入上进行训练的。这是一个关键的限制,因为人类是在三维空间中感知和与世界交互的。训练数据中缺乏全面的三维空间信息,阻碍了机器人对其环境形成深入理解。对于那些需要精确空间感知、深度感知和物体操作的任务来说,这一点尤为关键。促使我们开展研究的是,许多机构已经在基础VLA模型和大规模二维机器人数据集上投入了大量资金。用三维数据从头开始重新训练这些模型在计算上是不可行的,而丢弃有价值的二维机器人数据也不切实际。因此,探索能够将额外的三维输入集成到现有的基础机器人模型中的新颖框架至关重要,而这一研究领域在以往的文献中尚未得到充分探索。

这里我们引入了PointVLA,这是一个将点云集成到预训练的视觉-语言-动作模型中的新颖框架。我们假设新的三维机器人数据比预训练的二维数据要小得多。在这种情况下,不破坏已经建立好的二维特征表示至关重要。为了解决这个问题,我们提出了一个三维模块化block,它可以将点云信息直接注入到动作专家模块中。通过保持视觉-语言骨干网络完好无损,我们确保二维视觉文本embedding得以保留,并仍然是可靠的信息来源。此外,我们旨在尽量减少对动作专家特征空间的干扰。通过skip-block分析,我们识别出在测试时不太关键的层。这些“不太有用”层的特征embedding对新模态的适应性更强。在确定了这些不太重要的block之后,通过相加的方式注入提取的三维特征。整体方法在保持预训练VLA完整性的同时,融入了点云输入的优势。

这里进行了大量实验来验证我们方法的有效性。例如,在RoboTwin模拟平台上,方法优于纯粹的三维模仿学习方法,如3D Diffusion Policy。此外,在两种双手机器人上进行了真实世界实验:类似人形的UR5e机械臂和类似于Aloha平台的AglieX机械臂。实验还突出了PointVLA的几个关键优势:

  • 少样本多任务处理:PointVLA可以按照指令执行四项任务,每个任务仅在20个演示样本上进行训练。在如此小的数据集上进行多任务训练具有挑战性,而我们的方法明显优于基线方法。
  • 真实物体与照片判别:真实物体及其照片在二维图像中可能看起来非常相似,这可能会给机器人带来混淆和安全隐患。PointVLA可以可靠地区分真实物体和它们的图像,避免被虚拟物体欺骗。
  • 高度适应性:PointVLA可以根据桌面高度的变化调整机器人动作(例如,在高得多的桌子上抓取同一物品),而传统的二维VLA模型在这种情况下通常会失败。

此外,我们还处理了具有挑战性的长视野任务,如从移动的传送带上拾取多个物品并将它们包装到盒子中。这些实验展示了我们提出的PointVLA框架在各种场景下的强大性能和泛化能力,为将额外模态集成到预训练的VLA模型中指明了一个有前景的方向。

相关工作

视觉-语言-动作模型

最近的研究越来越关注开发在大规模机器人学习数据集上训练的通用机器人策略。视觉-语言-动作(VLA)模型已成为训练这类策略的一种有前景的方法。VLA模型扩展了在大规模互联网图像和文本数据集上预训练的视觉-语言模型(VLMs),将其应用于机器人控制。这种方法具有几个关键优势:利用具有数十亿参数的大规模视觉-语言模型骨干网络,能够从大量机器人数据中有效学习;同时,重用来自互联网规模数据的预训练权重,增强了VLA模型解释各种语言命令的能力,以及对新物体和环境的泛化能力,使其非常适合真实世界的机器人应用。​

基于3D模态的机器人学习

在三维场景中学习强大的视觉运动策略是机器人学习的一个重要领域。像3DVLA这样的现有方法提出了全面的框架,将各种三维任务,如泛化、视觉问答(VQA)、三维场景理解和机器人控制,集成到统一的视觉-语言-动作模型中。然而,3DVLA的一个局限性是其在机器人控制实验中对模拟的依赖,这导致了显著的模拟到现实的差距。其他工作,如3D diffusion policies表明,使用外部三维输入(例如,来自外部相机)可以提高模型对不同光照条件和物体属性的泛化能力。iDP3进一步增强了三维视觉编码器,并将其应用于人形机器人,在具有以自我为中心和外部相机视角的各种环境中都实现了强大的性能。但是,丢弃现有的二维机器人数据,或者用添加的三维视觉输入完全重新训练基础模型,在计算上成本高昂且资源密集。一个更实际的解决方案是开发一种方法,将三维视觉输入作为补充知识源集成到预训练良好的基础模型中,从而在不影响训练模型性能的情况下,获得新模态带来的好处。

PointVLA方法

预备知识:视觉-语言-动作模型

视觉-语言-动作(VLA)模型正在推动真实世界机器人学习的重大变革。其能力源于底层的视觉-语言模型(VLM),这是一个在大量互联网数据集上训练的强大骨干网络。这种训练使得图像和文本表示能够在共享的embedding空间中有效对齐。VLM就像模型的“大脑”,处理指令和当前视觉输入以理解任务状态。随后,“动作专家”模块将VLM的状态信息转化为机器人动作。这项工作基于DexVLA展开,DexVLA采用具有20亿参数的Qwen2-VL VLM作为骨干网络,以及具有10亿参数的ScaleDP(一种扩散策略变体)作为动作专家模块。DexVLA经历三个训练阶段:100小时的跨实体训练阶段(阶段1),然后是特定实体训练(阶段2),对于复杂任务还有可选的特定任务训练(阶段3)。所有三个阶段都使用二维视觉输入。虽然这些VLA模型在各种操作任务中表现出令人印象深刻的能力,但它们对二维视觉的依赖限制了在需要三维理解的任务中的表现,例如通过照片进行物体欺骗或在不同桌面高度上的泛化。下一节将说明如何将三维世界注入到预训练的VLA中。整体框架如图2所示。​

将点云注入VLA

动机

如前所述,视觉-语言-动作(VLA)模型通常在大规模二维机器人数据集上进行预训练。PointVLA方法基于一个关键观察:现有的二维预训练语料库和新兴的三维机器人数据集在数据规模上存在固有差异。我们认为与二维视觉-语言数据集相比,三维传感器数据(例如点云、深度图)在数量级上要小得多,这是由于机器人研究长期以来对二维感知的广泛关注。这种差异需要一种方法,既能保留从二维预训练中学到的丰富视觉表示,又能有效地集成稀疏的三维数据。

一种解决此挑战的简单策略是将三维视觉输入直接转换为三维视觉token,并将它们融合到大语言模型(LLM)中,这是许多3DVLM(如LLaVA-3D)采用的流行方法。然而,当前的视觉-语言模型在小规模三维数据集上进行微调时,三维理解能力有限,这一局限性受到两个因素的加剧:(1)二维像素和三维几何结构之间存在巨大的领域差距;(2)与丰富的图像文本和纯文本语料库相比,高质量的三维文本配对数据稀缺。为了避免这些问题,我们提出了一种范式,将三维点云数据视为补充调节信号,而不是主要输入模态。这种策略将三维处理与核心二维视觉编码器解耦,从而在保持预训练二维表示完整性的同时,使模型能够利用几何线索。通过设计,我们的方法减轻了对二维知识的灾难性遗忘,并降低了对有限三维数据过度拟合的风险。​

点云注入器的模型架构

点云注入器的整体架构如图1(右)所示。对于输入的点云embedding,首先转换通道维度,使其与原始动作专家的通道维度匹配。由于根据block大小,来自点云的动作embedding可能会很大,这里设计了一个动作embedding bottleneck,用于压缩来自动作专家的信息,同时使其与三维点云embedding对齐。对于动作专家中选定的block,首先为每个块应用一个MLP层作为适配器,然后进行加法操作,将点云embedding注入到模型中。

值得注意的是,我们避免将三维特征注入到动作专家的每个block中,主要有两个原因。第一,由于需要条件block,计算成本会过高。第二,注入不可避免地会改变受影响块的模型表示。鉴于我们旨在尽量减少有限的三维视觉知识对从二维视觉输入导出的预训练动作embedding的干扰,我们进行了分析,以识别在推理过程中可以跳过而不影响性能的块。随后,仅将三维特征注入到这些不太关键的block中。​

点云编码器

与DP3和iDP3中的观察结果一致,发现预训练的三维视觉编码器会阻碍性能,常常使机器人在新环境中难以成功学习行为。因此,我们采用了一种简化的分层卷积架构。上层卷积层提取低级特征,而下层卷积块学习高级场景表示。在层之间使用最大池化来逐步降低点云密度。最后,我们将每个卷积块的特征embedding连接成一个统一的embedding,封装了多层次的三维表示知识。提取的点云特征embedding将保留以供后续使用。这种架构与iDP3编码器类似。我们认为采用更先进的点云编码器可以进一步提高模型性能。​

向哪些block注入点云?Skip Block分析

如前所述,将点云注入到动作专家的每个块中并不理想,因为这会增加计算成本,并破坏从大量基于二维视觉的机器人数据中学到的原始动作表示。因此,我们分析动作专家中哪些block不太关键,即在推理过程中可以跳过而不影响性能的block。这种方法在概念上与图像生成、视觉模型和大语言模型中使用的技术一致。我们以DexVLA中的衬衫折叠任务为例进行分析。回想一下,DexVLA配备了具有10亿参数的动作专家,其中包含32个扩散transformer block。评估遵循相同的指标:平均得分,这是长视野任务的标准度量方法,通过将任务划分为多个步骤并根据步骤完成情况评估性能。从每次跳过一个块开始,并在下图中总结我们的发现。

在图3(左)中展示了结果。实验表明,前11个块对模型至关重要,跳过其中任何一个都会导致性能显著下降。具体来说,当跳过第11层之前的块时,抓手无法紧密闭合,使得模型难以完成任务。然而,从第11个块开始,跳过单个块是可以接受的,直到最后一个块。这表明第11到31个块在训练后对性能的贡献较小。为了进一步研究哪些块适合注入点云,我们从第11个块开始进行多块跳跃分析,如图3(右)所示。发现在模型无法完成任务之前,可以连续跳过多达五个块。这表明可以通过特定块将三维表示选择性地注入到动作专家中,在不显著影响性能的情况下优化效率。因此,当引入新数据时,我们将所有三维条件块设置为可训练的。我们冻结原始动作专家中的所有模块,除了最后几层,最后几层会进行调整以适应实体的输出。最终,只训练五个额外的注入block,这些block在推理时轻量且快速,使我们的方法具有很高的成本效益。

实验分析

实现细节

我们在两种实体机器人上进行真实实验:

  • 双手机器人UR5e:两台UR5e机器人,各自配备Robotiq平行夹爪和腕部摄像头。在两机械臂之间设有一个俯瞰摄像头。该设置共有三个摄像头视角,以及14维的配置和动作空间。数据采集频率为15Hz,使用RealSense D435i摄像头作为腕部摄像头。
  • 双手机器人AgileX:两台6自由度的AgileX机械臂,每个机械臂都配有腕部摄像头和基座摄像头。此设置有14维的配置和动作空间,由三个摄像头共同支持。数据采集频率为30Hz,我们用RealSense D435i作为腕部摄像头,使用RealSense L515摄像头采集点云数据。

由于模型需要学习新的语言指令,将视觉语言模型(VLM)设置为可训练。在两个实验中,均采用DexVLA的第一阶段预训练权重,并针对我们的模型进行微调。训练超参数与DexVLA第二阶段训练时相同,且我们使用最后一个检查点进行评估,以避免数据筛选偏差。所有任务的块大小均设为50。​

基线

在实验中,我们将方法与多个前沿模型进行对比,包括扩散策略(DP)、3D扩散策略(DP3)、ScaleDP-1B(将扩散策略扩展至10亿参数的变体)、Octo、OpenVLA和DexVLA。需注意,由于PointVLA基于DexVLA构建,DexVLA可视为我们提出的PointVLA在未融入3D点云数据时的简化版本。​

少样本多任务处理

任务描述

如图5所示,为真实世界实验设计了四个少样本任务:手机充电、擦盘子、放面包和运输水果。物体随机放置在小范围内,我们记录每种方法的平均成功率。

  • 手机充电:机器人拿起智能手机并放置在无线充电器上。手机的尺寸考验动作精度,其易碎性要求操作时需格外小心。
  • 擦盘子:机器人同时拿起海绵和盘子,用海绵擦拭盘子,以此评估双手协作操作能力。
  • 放面包:机器人拿起一片面包并放在盘子上。面包下方的薄泡沫层用于测试模型在不同高度下的泛化能力。
  • 运输水果:机器人拿起随机放置的香蕉,并将其放入位于中央的盒子中。

由于我们旨在验证模型的少样本多任务处理能力,每个任务仅收集20个演示数据,共计80个演示数据。物体位置在小空间内随机分布。这些任务用于评估模型在不同场景下管理独立和协调机器人运动的能力。所有数据均以30Hz的频率采集。​

实验结果

实验结果如表6所示,在该场景下我们的方法优于所有基线模型。值得注意的是,扩散策略在大多数情况下失败,可能是因为每个任务的样本量过小,导致动作表示空间混乱,这与先前文献中的发现一致。此外,即使增大模型规模(如ScaleDP-1B)也未带来显著改进。

DexVLA在数据有限的情况下仍展现出较强的少样本学习能力,但其性能与PointVLA相当或略逊一筹。PointVLA中融入的点云数据使其学习效率更高,凸显了将3D信息整合到模型中的必要性。更重要的是,实验结果证实我们的方法成功保留了从2D预训练VLA中学习的能力。​

长视野任务:装配线上的包装

除传统多任务处理外,我们在长视野包装任务上进一步微调PointVLA,如图4所示。该任务极具挑战性,原因如下:首先,装配线处于运动状态,要求机器人快速精准地抓取物体;其次,此场景下的机器人实体与预训练数据中的不同,需要快速适应全新的设置;最后,作为长距离任务,机器人必须依次拾取并放置两袋洗衣液,然后才能密封包装盒。这些复杂性使得该任务要求极高。

如表1所示,PointVLA在长距离任务中实现了最高的平均完成长度,比强大的基线模型DexVLA高出0.64,同时也超越了其他多个基线模型。然而,下一节将重点介绍PointVLA更关键的一个方面——物体幻觉问题。​

真实物体与照片判别

我们探索一种名为真实物体与照片判别的独特实验设置,用物体的图片替代真实物体。从2D视角看,屏幕上显示的“假”物体与真实物体几乎一模一样,但实际上它并不存在。人类能够轻易识别这种差异,并且不会伸手去拿,因为我们知道它不是真实的——那么机器人模型能做到吗?

为了验证这一点,我们使用双手机器人UR5e在包装任务中进行实验。将实验中的洗衣液替换为投影在屏幕上的洗衣液照片。实验设置如图7所示。从外部视角看,图片与真实物体差异明显。然而,从顶部摄像头的内部视角看,照片与实际洗衣液非常相似。我们发现,传统的基于2D的视觉语言动作模型,如OpenVLA和DexVLA,无法区分图片和真实物体。这些模型试图抓取物体,以DexVLA为例,它会反复尝试拾取并不存在的洗衣液。由于模型认为物体存在,但始终无法抓取,从而陷入重复抓取的循环。相比之下,PointVLA成功识别出传送带上没有真实物体。通过利用3D空间理解能力,它判断出物体应在的空间实际上是空的。这一关键优势凸显了我们方法的优势,证明了具有3D感知能力的模型在减少物体幻觉方面的优越性。​

高度适应性

高度泛化指模型适应不同桌面高度的能力。这对机器人模型至关重要,因为大多数演示数据是在固定桌面高度下收集的。但是,当机器人部署在与训练时桌面高度差异显著的环境中会怎样呢?

为了研究这个问题,我们设计了如图8所示的实验。具体在“放面包”任务中,我们在面包下方放置了泡沫塑料层。训练时,泡沫层厚度为3mm,所有收集的数据均基于此高度。推理时,我们将泡沫厚度增加到52mm,以评估模型的高度泛化能力。观察结果显示,传统的基于2D的VLA模型,如OpenVLA、DP、ScaleDP-1B和DexVLA在这种情况下均失败。检测到面包后,这些模型试图按照训练数据中的高度下压并抓取面包,无法适应增加的高度。相比之下,PointVLA成功完成了任务。通过利用点云数据,它准确感知到面包的新高度,相应地调整了夹爪,并成功完成拾取动作。该实验表明,融入3D信息使VLA模型能够处理物体高度的变化,这是纯2D模型所不具备的能力。​

模拟基准测试结果

在RoboTwin(一种广泛使用的配备14自由度机器人的移动双手机器人平台)上评估方法。该基准测试涵盖了一系列不同的任务。我们将方法与扩散策略和3D扩散策略(DP3)进行比较。扩散策略是视觉运动策略学习中成熟的基线模型,而DP3将其扩展到3D领域。原始的DP3仅使用点云数据作为输入。为确保公平对比,也将RGB图像融入DP3,实验由RoboTwin执行。我们将两种版本的DP3与原始扩散策略一同对比。在所有实验中,相机输入(包括L515和顶部摄像头)的标准图像分辨率设为320×180。

测试使用20和50个样本的数据集进行。根据RoboTwin的训练设置,每个实验使用三个随机种子(0、1、2)训练策略,且不进行数据筛选。每个策略测试100次,得出三个成功率。计算这些成功率的平均值和标准差,得到以下实验结果。

实验结果如表2所示。基线结果(包括3D扩散策略和扩散策略)由RoboTwin提供。值得注意的是,在所有任务和不同设置下,无论训练数据是20个还是50个演示样本,我们提出的PointVLA均获得了最高的平均成功率。这表明我们的方法即使在数据资源有限的情况下也有效,并且在有大量训练数据时性能依然出色。

此外,我们观察到对于像DP3这样的纯3D模型,直接融入RGB输入可能会对性能产生负面影响。相比之下,我们的方法强调了有条件地将3D点云数据集成到模型中的必要性,与仅依赖2D视觉输入的模型相比,这显著提升了性能。

最后,总结下

视觉-语言-动作(VLA)模型通过大规模2D预训练在机器人学习中表现出色,但其对RGB输入的依赖限制了3D空间推理能力。用3D数据重新训练成本高昂,丢弃2D数据集又会降低泛化能力。为解决这些问题,这里引入了PointVLA框架,它在保留2D表示的同时,通过3D点云输入增强预训练的VLA模型。通过集成模块化3D特征注入器并利用跳跃块分析,PointVLA无需完全重新训练就能高效融入空间信息。

在模拟和真实世界环境中的实验证明了PointVLA的有效性,它实现了少样本多任务学习(每个任务仅用20个演示样本完成4个任务),并在动态物品包装等长视野任务中表现卓越。在双手机器人(UR5e和AgileX机械臂)上的真实世界测试进一步验证了其实用性和安全性。我们的工作凸显了在无需昂贵重新训练的情况下,用新模态增强预训练机器人模型的可行性。未来的工作包括在更大的数据集上扩展3D感知预训练。

#TSP3D

清华提出:基于语言引导空间剪枝的高效3D视觉Grounding本文介绍了一种名为 TSP3D 的高效 3D 视觉定位框架,通过语言引导的空间剪枝和多层稀疏卷积架构,实现了高精度和快速推理,在 ScanRefer 和 ReferIt3D 数据集上达到了 SOTA 性能,同时显著提升了推理速度。

很开心我们最近的工作拿到了CVPR的满分,这也是继 DSPDet3D 之后三维空间剪枝在3DVG任务中的一次成功的尝试。在这篇文章中,我们提出了TSP3D,一个高效的3D视觉定位(3D Visual Grounding)框架,在性能和推理速度上均达到SOTA。此外,文中还包含了我们将三维稀疏卷积引入3D Visual Grounding任务中遇到的挑战,以及我们的探索和思考。

图片

Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding

论文:https://arxiv.org/abs/2502.10392

代码仓库:https://github.com/GWxuan/TSP3D

简介

3D视觉定位(3D Visual Grounding, 3DVG)任务旨在根据自然语言描述在三维场景中定位指定的目标对象。这一多模态任务具有很大挑战性,需要同时理解3D场景和语言描述。在实际应用(如机器人、AR/VR)中对模型的效率有着较高的要求,但现有方法在推理速度上受到了一定限制。早期的方法[1,2]大多采用两阶段框架:首先通过3D目标检测在场景中找到所有候选物体,然后结合文本信息在第二阶段选出与描述匹配的目标。这种方法虽然直观,但由于两个阶段分别提取特征,存在大量冗余计算,难以满足实际应用中的推理速度要求。为提升效率,随后出现了单阶段方法[3,4],直接从点云数据中定位目标物体,将目标检测与语言匹配一步完成。然而,现有单阶段方法大多同样基于点云处理架构(PointNet++[5]等),其特征提取需要耗时的最远点采样(FPS)和近邻搜索等操作。因此当前单阶段方法距离实时推理仍有差距(推理速度不足6 FPS)。

为了解决上述问题,本文提出了一种全新的单阶段3DVG框架——TSP3D,即“Text-guided Sparse voxel Pruning for 3DVG”。TSP3D放弃被现有方法广泛使用的点云处理架构,引入了多层稀疏卷积架构来同时实现高精度和高速推理。三维稀疏卷积架构提供了更高的分辨率和更精细的场景表示,同时在推理速度上具有显著优势。同时,为了有效融合多模态信息,TSP3D针对特征融合进行了一系列设计。如上面图一所示,TSP3D在精度和推理速度方面都超过了现有方法。

方法

我们将三维稀疏卷积引入3DVG任务时遇到了诸多挑战,我们在文中介绍了这些挑战以及我们的思考和分析,希望能够对研究社区有所帮助。

图片

架构分析

点云处理架构:特征提取需要耗时的最远点采样(FPS)和近邻搜索等操作,同时受到场景表示的空间分辨率限制。

直接引入多层稀疏卷积(TSP3D-B):如上图(a)所示,场景特征和文本特征通过简单的拼接进行融合,推理速度快(14.58 FPS),但融合效果差,精度低。

改为attention机制的特征融合:如上图(b)所示,由于生成式稀疏卷积的作用,体素数量(场景表示的分辨率)极高,导致进行attention计算时显存溢出,在消费级显卡上难以训练和推理。

引入基于文本引导的体素剪枝(TSP3D):如上图(c)所示,根据语言描述逐步修剪对目标定位没有帮助的voxel,极大程度上减小了计算量,并提高推理速度。

简化的TSP3D(主推版):去掉了最远点采样和插值,将多个attention模块重新组合,进一步提高计算效率。

文本引导的体素剪枝(Text-guided Pruning, TGP)

TGP的核心思想是赋予模型两方面的能力:(1)在文本引导下修剪冗余体素来减少特征量;(2)引导网络将注意力逐渐集中到最终目标上。我们的TSP3D包含3 level的稀疏卷积和两次特征上采样,因此相应设置了两阶段的TGP模块:场景级TGP (level 3 to 2) 和目标级TGP (level 2 to 1)。场景级TGP旨在区分物体和背景,用来修剪背景上的体素。目标级TGP侧重于文本中提到的区域,保留目标对象和参考对象,同时修剪其他区域的体素。

TGP的作用分析:引入TGP后,level 1的体素数减少到原来的7%左右,并且精度得到了显著提高。这归功于TGP的多种功能:(1)通过attention机制促进多模态特征之间的交互;(2)通过剪枝减少特征数量;(3)基于文本特征逐渐引导网络集中注意力到最终目标上。

基于补全的场景特征融合(Completion-based Addition, CBA)

图片

在剪枝过程中,一些目标体素可能会被错误地去除,尤其是对于较小或较窄的目标。因此,我们引入了基于补全的场景特征融合模块(CBA),它提供了一种更有针对性且更有效的方法来融合multi-level特征。CBA用于backbone特征和上采样的剪枝特征融合,基于完整性较好的backbone特征对剪枝特征进行补充。同时,CBA引入的额外计算开销可以忽略不计。方法细节请参见文章。

实验结果

我们在主流的3DVG数据集ScanRefer[1]和ReferIt3D[6]上进行了实验。我们是第一个全面评估3DVG方法的推理速度的工作,所有方法的推理速度在一个消费级的RTX 3090上测得。下面是两个主表的结果,左侧为ScanRefer数据集,右侧为ReferIt3D数据集。

图片

我们进行了一些列消融实验,证明我们提出方法的有效性:

图片

我们对文本引导的体素剪枝(TGP)进行了可视化。在每个示例中从上到下为:场景级TGP、目标级TGP和最后一个上采样层之后的体素特征。蓝框表示目标的ground truth,红框表示参考对象的bounding box。可以看出,TSP3D通过两个阶段的剪枝减少体素特征的数量,并逐步引导网络关注最终目标。

图片

此外,我们对基于补全的场景特征融合(CBA)进行了可视化,展示了CBA自适应补全过度剪枝造成的目标体素缺失。图中蓝色点表示目标级TGP输出的体素特征,红色点表示CBA预测的补全特征,蓝色框表示ground truth。

图片

下图展示了与其他方法的定性比较,TSP3D在定位相关目标、窄小目标、识别类别以及区分外观和属性方面表现出色。

图片

更多实验、可视化可以参考我们的论文以及补充材料。如有问题欢迎大家在github上开issue讨论~

参考文献

[1] Dave Zhenyu Chen, Angel X Chang, and Matthias Nießner. Scanrefer: 3d object localization in rgb-d scans using natural language. In ECCV, pages 202–221. Springer, 2020.

[2] Pin-Hao Huang, Han-Hung Lee, Hwann-Tzong Chen, and Tyng-Luh Liu. Text-guided graph neural networks for referring 3d instance segmentation. In AAAI, pages 1610–1618, 2021.

[3] Junyu Luo, Jiahui Fu, Xianghao Kong, Chen Gao, Haibing Ren, HaoShen, HuaxiaXia, and SiLiu. 3d-sps: Single-stage 3d visual grounding via referred point progressive selection. In CVPR, pages 16454–16463, 2022.

[4] Yanmin Wu, Xinhua Cheng, Renrui Zhang, Zesen Cheng, and Jian Zhang. Eda: Explicit text-decoupling and dense alignment for 3d visual grounding. In CVPR, pages 19231-19242, 2023.

[5] Charles Ruizhongtai Qi, Li Yi, Hao Su, and Leonidas J Guibas. Pointnet++: Deep hierarchical feature learning on point sets in a metric space. In NeurIPS, 30, 2017.

[6] Panos Achlioptas, Ahmed Abdelreheem, Fei Xia, Mohamed Elhoseiny, and Leonidas Guibas. Referit3d: Neural listeners for fine-grained 3d object identification in real-world scenes. In ECCV, pages 422–440. Springer, 2020.

#Dora

开源三维生成框架Craftsman3D&Dora革新三维资产生成与编辑

香港科技大学谭平教授团队在 CVPR 2025 发表两项三维生成技术框架,核心代码全部开源,助力三维生成技术的开放与进步。其中 Craftman3D 获得三个评委一致满分,并被全球多家知名企业如全球最大的多人在线游戏创作平台 Roblox, 腾讯混元 Hunyuan3D-2,XR 实验室的 XR-3DGen 和海外初创公司 CSM 的 3D 创作平台等重量级项目的引用与认可。

相关技术已融入光影焕像的三维生成平台及产品,用户只需简单操作,就能开启专属三维创作之旅。

  • 光影焕像 3D 生成平台(主站):https://triverse.ai/zh-cn/
  • 光影焕像 3D 生成平台(国内备用):https://triverse.lightillusions.com/zh-cn/

本文中 Craftman3D 的共同一作李威宇、刘嘉瑞和阎鸿禹均为香港科技大学博士研究生。Dora 的第一作者为香港科技大学博士陈锐。均为香港科技大学谭平教授组的在读博士生。

,时长00:24

三维内容的创建对于游戏、影视、AR/VR 乃至具身智能的环境仿真中具备关键作用。不过,传统三维建模方式要求建模者掌握大量专业知识,且需投入大量人工操作,这使得建模过程极为耗时,极具挑战性,对于非专业用户而言更是如此。过高的时间与人力成本,已然成为限制这些领域发展的主要瓶颈。近年来,基于 AI 的三维内容生成技术逐步改变了这一局面。借助自动化生成技术,三维内容创建的门槛大幅降低,让更广泛的用户群体能够高效地构建三维数字内容。

当前原生三维生成模型主要由两部分构成:一是 3D-VAE(3D Variational Auto Encoder)变分自编码器,它通过 Encoder 网络将三维模型压缩编码至潜在空间(latent space),并通过 Decoder 网络解码重构出三维模型;二是基于 3D-VAE 构建的潜在扩散模型(latent diffusion model)用于处理文本或图像输入的三维模型生成。三维生成大模型所呈现的细节上限,在很大程度上取决于 3D-VAE 对三维几何的编码与重建能力。为提升三维模型编解码过程中的几何细节丰富度,香港科技大学谭平团队联合字节跳动豆包大模型团队与光影焕像团队,共同提出了 Dora 模型来改进三维原生 VAE。

在 3D-VAE 模型的基础上,香港科技大学与光影焕像团队进一步提出了 Craftsman3D 算法方案,该方案借鉴了传统建模流程,能够快速生成高质量的 3D 模型,以进一步生成满足设计师对高质量三维模型的生成要求。此方法在 CVPR 中获得审稿人一致满分评价,它融合了原生 3D 大模型以及实时几何细节优化两大部分:首先由原生三维大模型生成初始模型,随后通过实时可交互几何细化操作,短短几十秒内即可生成具备高质量几何细节的三维模型。

  • Dora 开源代码:https://github.com/Seed3D/Dora/
  • Dora 项目主页:https://aruichen.github.io/Dora/

本文提出的 Dora-VAE,创新性地将显著边缘采样算法与双交叉注意力机制相结合,极大地提升了三维变分自编码器(3D-VAE)的重建质量与压缩性能。在训练阶段,该方法能够精准识别出具有较高几何复杂性的区域,并对其优先处理,从而有效改善了对精细几何特征的保留情况,让变分自编码器能够着重关注那些传统均匀采样方式容易忽视的关键几何细节。在实现高质量重建的同时,相较于当前 SOTA 方法(Xcube),Dora-VAE 在 3D 形状压缩率方面实现了超过 8 倍的提升 。

当前,三维变分自编码器的运行机制是:通过在三维网格表面进行点采样来完成形状编码,而后利用解码器对原始三维网格进行重建。经过深入且细致的研究,研究人员察觉现有方法普遍采用均匀采样(uniform sampling)策略,从而导致重建性能受限。为了验证这一发现,研究人员选取了具有复杂几何细节的键盘(如下图 (a) 所示)作为实验对象,对其进行点云采样,并将不同采样策略在多种采样密度下的点云分布情况进行了可视化呈现(如下图 (b)(c) 所示)。实验结果清晰地显示:即便提升了采样率,采用均匀采样方式(如下图 (b) 所示)依旧无法有效地保留键盘按键等锐利特征(sharp feature)。这一简洁直观的实验有力地证实了,均匀采样在本质上对几何细节的捕捉能力形成了制约,而这种制约进一步对变分自编码器的重建精度以及所训练扩散模型的生成质量产生了不良影响。

图片

受重要性采样理念的启发,研究人员设计了显著边缘采样(Sharp Edge Sampling, SES)算法,该算法能够基于几何显著性实现自适应点采样。具体而言,SES 算法首先识别网格中具有显著二面角的边缘(这些边缘所在区域往往对应高几何复杂度区域),并沿显著区域进行点采样。与此同时,为了保证三维模型表面的覆盖完整性,研究人员依旧会进行表面均匀点采样。因此,最终生成的采样点云

图片

由表面均匀采样点

图片

与显著区域采样点

图片

联合构成:

图片

图片

显著边缘检测(Salient Edges Detection)

给定一个三维网格,研究人员通过计算相邻面间的二面角获得显著边缘集合

图片

。对于每条由相邻面

图片

图片

共享的边

图片

,研究人员通过下式计算其二面角

图片

图片

其中

图片

图片

分别表示面

图片

图片

的法向量。显著边缘集合

图片

包含所有二面角超过预设阈值

图片

的边:

图片

,令

图片

表示显著边缘的数量。

显著点采样(Salient Points Sampling)

针对每条显著边缘

图片

,研究人员将其两个顶点

图片

图片

纳入显著顶点集合

图片

,相连边缘产生的重复顶点仅保留一份:

图片

。令

图片

表示该集合中唯一几何顶点的数量。给定显著区域目标点数

图片

,当显著顶点过多时,通过最远点采样法 (Farthest Point Sampling, FPS) 进行顶点下采样;当显著顶点不足,通过对显著边缘增加采样来补充数据,从而得到显著区域采样点

图片

图片

基于 SES 算法,研究人员提出 Dora-VAE,在保持紧凑潜在表征的同时实现了高保真度的三维重建。为充分利用 SES 采样获得的富含细节的点云数据,研究人员设计了双交叉注意力编码架构,该架构在特征编码过程中能有效融合显著区域与均匀区域的特征表达。具体而言,研究人员沿用 3DShape2VecSet 的做法,首先分别对均匀采样点云

图片

和显著区域采样点云

图片

进行最远点下采样:

图片

其中

图片

图片

分别表示来自均匀采样点云

图片

和显著区域采样点云

图片

的下采样点云数量。研究人员随后分别计算均匀点与显著点的交叉注意力特征:

最终点云特征 C 通过融合双向注意力计算结果获得:

图片

遵循 3DShape2VecSet,研究人员利用特征 C 通过自注意力模块预测占据区域

图片

,整个模型

图片

通过最小化均方误差损失进行优化:

图片

研究人员通过三个指标评估重建质量:使用 1M 采样点对比输入网格与不同 3D VAEs 解码结果的差异,包括:1) F-score;2) 倒角距离 (CD);3) 尖锐法线误差 (SNE)。为公平比较,研究人员同时给出潜在编码长度 (LCL)。结果表明,Dora-VAE 在 Dora-bench 中所有的指标都达到了最佳。

图片

  • Craftman3d开源代码:https://github.com/wyysf-98/CraftsMan3D/
  • Craftman3d项目主页:https://craftsman3d.github.io/

在训练 3D-VAE 的基础上,CraftsMan3D 通过汲取传统建模流程的经验,精心设计了两阶段的技术方案:第一阶段使用原生三维大模型进行初始模型生成。算法先使用 multi-view image diffusion 进行多视图生成,然后将多视图输入到 3D-DiT 扩散模型中来生成拓扑规则的几何和纹理。第二阶段为几何细化阶段,团队使用法向图超分的方案实现高质量法向估计,然后通过可微渲染实现法线图引导的几何细节优化。

图片

阶段一:基于 DiT 的原生三维大模型

团队提出了将三维扩散模型与多视图扩散模型相结合的原生三维生成方案。具体来说,算法使用 3D-VAE 将几何压缩到潜在空间,然后使用 3D-DiT 扩散模型在潜在空间进行生成。对于单个参考图像或文本提示输入,首先将其输入到多视图扩散模型中以获得多视图图像作为三维扩散模型的输入,然后使用三维扩散模型从中学习生成三维几何图形。

团队设计了完善的数据筛选 - 几何水密化 - 渲染等数据处理流程,形成了强大的数据处理平台以支撑原生三维大模型的训练数据。

阶段二:高质量几何细节优化

受限于 3D 大模型常用的隐式表达方案和 VAE 的压缩特性,原生三维生成的物体往往难以具备很高频的几何细节。因此,论文提出了第二阶段交互式几何细节优化,通过法相贴图生成和反向 “烘焙” 优化的方式捕捉高频的几何细节,从而产生高质量的三维资产。

图片

具体来说,该部分通过基于表面法线贴图的扩散模型来实现法线图细节增强,并通过显式三角网格优化增加三维几何细节。团队在原版 stable diffusion 的基础上使用法线数据集微调,并借助 tile 插件实现法相贴图的超分辨率生成。通过这种方式模型既拥有几何细节生成能力,还保留了原有的泛化能力。进一步基于法线贴图优化直接优化三维网格顶点,只需 10 秒,即可在用户绘制的区域添加几何细节,并完全保持其他区域的几何形状。

图片

该技术还支持趣味扩展功能:以人物照片为输入,可生成与输入图像面部特征匹配的 3D 模型,实现 3D 资产快速换脸。

图片

使用Craftman3D三维生成技术方案,普通用户无需复杂操作即可快速搭建出精美的三维模型和场景。无论是游戏开发、影视制作还是建筑室内设计、具身感知虚拟场景,各类创意都能轻松实现。如下图所示,场景中的所有物体均由 Craftman3D 自动生成。

图片

#WonderTurbo

0.72秒生成3D世界!建模提速15倍!极佳&北大等的强势登场,可实时交互!

一种新型的实时交互式 3D 场景生成方法WonderTurbo,能够在 0.72 秒内生成高质量的 3D 场景,建模速度相比传统方法提升了 15 倍。

文章链接:​​https://arxiv.org/pdf/2504.02261​

项目链接:​​https://wonderturbo.github.io/​

从一幅图像开始,用户可以自由调整视角,交互式地控制 3D 场景的生成,每次交互只需 0.72 秒

从一幅图像开始,用户可以自由调整视角,交互式地控制 3D 场景的生成,每次交互只需 0.72 秒

亮点直击

  • 提出了 WonderTurbo,首个实时(推理耗时:0.72 秒)的 3D 场景生成方法,支持用户交互式创建多样化且连贯连接的场景。
  • 在几何效率优化方面,提出的 StepSplat 将前馈范式(feed-forward paradigm)扩展至交互式 3D 几何表示,可在 0.26 秒 内加速 3D 场景扩展。此外,引入 QuickDepth 以确保视角变化时的深度一致性。在外观建模效率方面,提出 FastPaint,仅需 2 步推理 即可完成图像修复。
  • 通过全面实验验证,WonderTurbo 在实现 15 倍加速 的同时,在几何与外观方面均优于其他方法,可生成高质量的 3D 场景。

总结速览解决的问题

  • 实时交互性不足:现有3D生成技术(如WonderWorld)更新单视角需近10秒,无法满足实时交互需求。
  • 几何建模效率低:传统3D Gaussian Splattings(3DGS)等方法依赖迭代训练更新几何表示,耗时较长。
  • 外观建模速度慢:基于扩散模型的图像修复方法需要大量推理步骤,计算开销大。
  • 小视角局限性:现有单图像新视角生成方法仅支持小幅视角变化,难以适应动态交互需求。

提出的方案

  • StepSplat:动态更新高效3D几何表示,单次更新仅需0.26秒,支持交互式几何建模。
  • QuickDepth:轻量级深度补全模块,为StepSplat提供一致深度先验,提升几何准确性。
  • FastPaint:两步扩散模型,专为实时外观修复设计,保持空间一致性,显著减少推理步骤。

应用的技术

  • 几何建模
  • 基于前馈式推理(feed-forward)的3D Gaussian Splattings(3DGS)加速,避免迭代训练。
  • 特征记忆模块动态构建cost volume,适应视角变化。
  • 深度优化:轻量级深度补全网络(QuickDepth)提供稳定深度输入。
  • 外观建模:高效扩散模型(FastPaint)仅需2步推理完成修复,兼顾质量与速度。

达到的效果

  • 速度突破
  • 单视角生成仅需0.72秒,较基线方法(如WonderWorld)加速15倍
  • StepSplat几何更新仅0.26秒,FastPaint外观修复仅需2步推理。
  • 质量与一致性
  • 在CLIP指标和用户评测中领先,保持高空间一致性和输出质量。
  • 支持大幅视角变化(如全景相机路径和行走路径)。
  • 应用场景:适用于实时3D内容创作、虚拟现实(VR)和交互式设计等场景。

效果展示

图片

图片

方法WonderTurbo 的整体框架

交互式 3D 场景生成受限于计算效率,主要由于几何与外观建模的耗时问题。WonderWorld 提出了 FLAGS 以加速几何建模,但仍需数百次迭代优化几何表示,且其外观建模依赖预训练扩散模型,需数十步推理完成修复。相比之下,WonderTurbo 通过同时加速几何与外观建模,实现实时交互式 3D 场景生成。具体而言,提出 StepSplat 加速几何建模,可在 0.26 秒 内直接推断 3DGS;在此框架下,QuickDepth 在 0.24 秒 内补全缺失深度信息;针对外观建模加速,引入 FastPaint,仅需 0.22 秒 完成图像修复。

下图 2 展示了 WonderTurbo 的流程。在第  次迭代时,给定用户指定位置,FastPaint 基于当前 3D 场景的渲染图像  和用户提供的文本描述,生成新场景外观 。随后,利用渲染深度图  和新生成的外观  生成深度图  ,确保新生成场景的几何结构与现有 3D 场景对齐。最后,StepSplat 以深度图  和新场景外观  为输入,将局部几何  增量融合至全局表示  。下文将详细阐述 StepSplat,QuickDepth 和 FastPaint。

图片

StepSplat

为加速几何建模,本文提出 StepSplat。如下图 3 所示,StepSplat 以位姿  ,图像  及 QuickDepth 提供的对应深度  为输入,首先通过主干网络提取匹配特征  和图像特征  ;随后查询特征记忆模块中邻近视角的匹配特征以构建成本体积(cost volume)。成本体积与  拼接后预测高斯参数。同时,利用 QuickDepth 提供的稳定深度作为几何先验构建成本体积,确保高斯中心点的准确性。最终,通过增量融合策略将当前视角生成的局部几何  合并至全局几何  ,实现连续一致的 3D 表示。

图片

特征记忆模块
本文引入特征记忆模块存储历史视角的匹配特征,用于构建后续成本体积。给定输入图像  和位姿  ,首先通过主干网络提取图像特征  和匹配特征  ,随后将元组  更新至特征记忆模块。为加速推理,采用 RepVGG 作为主干网络。

深度引导的成本体积构建
针对当前视角的成本体积构建,自适应地从特征记忆模块中选择  个邻近视角,并利用 QuickDepth提供的输入深度作为成本体积的深度候选。具体实现时,首先计算当前位姿  与特征记忆模块中所有历史位姿  的距离。

图片

其中  表示 L2 范数。根据这些距离,选择  个最接近当前位姿的位姿,并从记忆模块中提取其对应的匹配特征  ,其中每个  对应  个最近位姿之一。

为确保 3D 表示的一致性,受多视图立体匹配(Multi-View Stereo)的启发,本文利用  指导成本体积的构建。从范围  中均匀采样  个深度候选  ,其计算公式为:

图片

其中  是用于调整深度候选范围的偏移值。然后,使用平面扫描立体算法(plane-sweep stereo)将每个邻近视图的匹配特征  变换到当前视图的候选深度平面  上,特征变换公式表示为:

图片

其中  表示可微分的warping操作。随后计算当前视角特征  与每个warped邻近特征  的归一化点积相关性,并对所有邻近视图的相关性图取平均:

图片

其中  表示候选深度数量,各深度的相关性图被堆叠形成成本体积  。同时,采用额外的2D U-Net进一步精炼和上采样成本体积。对成本体积  进行归一化后,通过对所有深度候选进行加权平均得到预测深度图  :

图片

在获得深度预测后,深度值被反投影作为3D高斯分布(3DGS)的中心点。随后对成本体积和图像特征进行解码以获取其他高斯参数,方法与MVSplat类似。

增量融合
为减少高斯分布的冗余,通过深度约束将局部几何  更新至全局几何  。具体而言,给定具有二维坐标  和深度  的  ,我们使用相机投影矩阵  将全局几何  中的所有高斯分布  投影至当前像素坐标系:

图片

然后通过以下方式构建投影到相同离散像素位置的全局高斯候选集:

图片

为保持几何连续性,从  中剔除违反深度一致性约束的冲突高斯分布。待剪枝的高斯分布定义为集合  中的元素:

图片

其中  控制深度容差。随后通过选择性地将有效局部高斯(即未包含在  中的高斯)合并到现有全局模型中来完成全局模型更新,如以下公式所示:

图片

StepSplat的训练
传统前馈式3DGS方法难以满足交互式3D场景生成的需求,部分原因是数据集的多样性有限(主要集中在自动驾驶或室内环境等特定场景),且这些数据集的视角变化与交互式3D场景生成的要求存在显著差距。本文利用3D生成模型创建包含模拟视角变化的数据集来训练StepSplat。训练时随机选取图像序列逐帧输入模型,生成全局高斯表示,并基于该表示渲染新视角图像,以RGB图像作为监督信号。

图片

QuickDepth

现有深度补全方法虽取得显著进展,但主要针对稀疏深度补全任务,难以处理完全缺失深度信息的区域(交互式3D场景生成的关键需求)。WonderWorld提出免训练的引导深度扩散方法,但单张深度图需3秒以上;Invisible Stitch因缺乏真实数据而采用教师蒸馏与自训练策略,但训练数据有限导致部分场景性能下降。本文提出QuickDepth——基于自建数据集训练的轻量级深度补全模型,具有强泛化能力,可适应多样化场景。

为适配交互式3D场景生成,本文构建包含室内外环境、漫画与艺术作品等多样化场景的数据集。不同于使用随机掩码或投影模拟交互场景的掩码,本文设计了更符合交互需求的相机轨迹:

1.设计相机位姿  ,从数据集获取帧序列  及其对应深度图 

2.利用相邻帧几何关系:将前一帧深度图  通过相对位姿  投影至当前帧  坐标系,生成不完整深度图  与二值有效掩码 (无效像素标识需补全区域)

训练时,输入构造方式为:

  • 完全掩码目标帧真实深度 
  • 或选择经变换的深度-掩码对 

QuickDepth以轻量预训练深度估计模型初始化,输入目标帧RGB图像、不完整深度图与二值掩码,通过损失监督预测深度与真实深度的差异。​

FastPaint

在3D场景生成中,图像修复技术对3D外观建模至关重要。现有方法存在以下局限:

  1. 空间定位不足:如Pano2Room可从单输入生成全景图像,但难以在用户指定位置生成内容
  2. 效率瓶颈:WonderJourney和WonderWorld采用基于Stable Diffusion的微调修复模型,但存在:
  • 微调时的修复区域与3D场景生成需求不匹配,需额外模型验证生成内容
  • 扩散模型需多步推理(通常20+步)

本文提出FastPaint解决方案:

  • 推理加速:通过知识蒸馏结合ODE轨迹保持与重构技术,将推理步骤压缩至2步
  • 领域适配:构建专用训练数据集,其特点包括:
  • 相机位姿模拟交互式3D生成过程
  • 通过深度图投影获取掩码(与StepSplat/QuickDepth共享轨迹生成逻辑)
  • 确保修复区域与实际应用场景对齐

交互式3D生成数据集

单张图像的交互式3D生成支持多样化风格图像作为输入,但现实数据往往局限于自动驾驶或室内环境等特定场景。这种局限性导致当前3D生成方法泛化能力不足。同时,部分方法直接采用预训练模型构建流程,这些模型可能并非专为交互式3D场景生成设计,因此需要借助视觉语言模型(VLM)来验证生成内容是否符合场景风格或文本要求。

为突破这一限制,本文基于现有3D场景生成方法构建数据集,并利用该数据集训练所有模块。采用多种3D场景生成方法来创建各方法擅长的3D场景,同时使用VLM模型验证生成数据是否符合预设场景。最终数据集包含通过模拟交互轨迹渲染的600多万帧画面,涵盖旋转路径、线性移动和混合轨迹三种运动模式,主要包含四大类场景:室内环境(32%)、城市景观(28%)、自然地形(25%)和风格化艺术场景(15%)。

训练StepSplat时,对相邻输入帧的间距施加约束,避免使用间隔过近的帧,从而更好地契合3D交互生成的实际应用需求。对于FastPaint和QuickDepth模块,则利用相邻帧的深度信息通过投影获取对应掩膜。​

实验

本节将介绍实验设置(包括实现细节和评估指标),随后通过定量与定性结果证明WonderTurbo在性能和效率上的优越性,最后通过消融实验验证各模块的有效性。​

实验设置

基线方法:在对比分析中,本文选取了具有代表性的离线与在线3D生成方法。离线方法包括通过多视角图像生成3D场景的LucidDreamer和Text2Room,以及直接生成全景图再提升至3D的Pano2Room和DreamScene360。在线方法则评估了WonderJourney和WonderWorld。所有对比均采用各方法的官方代码实现。

评估指标:遵循WonderWorld的设定,本文采用CLIP分数(CS)、CLIP一致性(CC)、CLIP-IQA+(CIQA)、Q-Align和CLIP美学分数(CA)作为评估指标,并辅以用户研究收集视觉质量的主观反馈(详见补充材料)。

实现细节:为确保全面评估,本文使用LucidDreamer、WonderJourney和WonderWorld的输入图像,针对4组测试案例各生成8个场景(总计32个场景)。评估采用固定全景相机视角,并以相同视域内场景生成时间作为效率对比指标。​

主要结果

生成速度:交互式3D生成的时间成本至关重要。如下表1所示,即便采用FLAGS加速,对比方法中最快的WonderWorld仍需超过10秒生成场景。LucidDreamer和Text2Room需为每个新场景生成多视角,显著增加了外观建模时间;而Pano2Room和DreamScene360虽无需多视角生成,但全景图生成延迟和逐场景优化需求严重制约效率。值得注意的是,WonderTurbo在几何与外观建模上均表现优异,总体加速达15倍。

图片

定量结果:下表2对比了WonderTurbo与多种3D生成方法。实验表明,在线生成方法因更贴合用户文本需求,其CLIP分数和一致性优于离线方法。WonderWorld在所有基线中领先,而WonderTurbo在加速15倍的同时仍保持与之相当的指标性能。此外,由于针对交互任务微调,WonderTurbo在CLIP分数、一致性、CLIP-IQA+和美学分数上均有提升。

图片

用户研究:下表3,用户研究表明WonderTurbo在生成时间更低的情况下达到与WonderWorld相当的生成质量,并在用户偏好度上显著优于其他方法。

图片

定性结果:下图5展示了相同设置下WonderTurbo与基线方法的生成效果对比。可见WonderTurbo在显著缩短生成时间的同时保持了竞争力:DreamScene360和Pano2Room因泛化能力有限出现几何失真且美学表现不足;LucidDreamer和Text2Room则存在内容错位与提示细节缺失问题;而WonderTurbo与WonderWorld的结果质量接近,均展现出优异性能。

图片

消融实验

几何建模:本文对比了FreeSplat、DepthSplat等几何建模方法(均采用相同微调设置以确保公平)。如下表4所示,依赖无监督深度估计的FreeSplat和DepthSplat在Q-Align和CLIP美学分数上显著劣于StepSplat。而StepSplat通过一致性深度图指导代价体积构建,实现了自适应交互式3D场景生成。

图片

StepSplat分析:针对深度引导代价体积(depth guided cost volume)与渐进融合(incremental infusion)的消融实验如下表5所示。结果表明:深度引导代价体积是精确几何建模与图像质量的关键;渐进融合则通过减少冗余高斯分布和避免浮点问题提升性能。

图片

FastPaint验证:与预训练修复模型的对比显示,FastPaint显著增强了3D外观建模能力,各项指标均有提升。​

讨论与结论

尽管单图像3D场景生成取得进展,但耗时的几何优化与视角细化仍制约效率。为此,提出实时交互框架WonderTurbo:

  • 几何加速:StepSplat可在0.26秒内扩展3D场景并保持高视觉质量,QuickDepth为代价体积构建提供一致性深度先验
  • 外观建模:FastPaint仅需2步推理即可完成空间一致的外观建模
    实验表明,WonderTurbo能精准实现文本到3D的生成,在CLIP指标和用户偏好率上均优于基线方法,同时获得15倍加速。

参考文献

[1] WonderTurbo: Generating Interactive 3D World in 0.72 Seconds

#HiMoR

3D高斯还能这么表示?HiMoR实现高质量单目动态三维重建

单目实现动态重建

动态三维场景重建旨在从视频数据中恢复动态场景的几何、外观和运动信息。所重建的动态三维模型可以在任意时间点进行自由视角渲染,使其在虚拟现实、视频制作等方面具有实际应用价值,甚至为个人提供了一种创新方式,用于捕捉和重温他们的美好回忆。

随着三维高斯喷溅(3DGS)研究的兴起,一些方法尝试通过联合学习高斯及其变形,从多视角视频中重建动态三维场景。然而,由于信息受限,尤其是缺乏多视角一致性约束,从单目视频中进行重建仍然具有较大的挑战性

近期的研究集中于为高斯设计更优的变形模型,以更好地整合跨帧的时间信息,从而克服单目视频中信息不足的问题。例如,Shape of Motion(SoM)提出了一组全局运动基底,为每个高斯分配决定其运动的系数,基于运动通常是平滑且简单的这一认识,换句话说是低秩的。由于整个场景只共享少量的全局运动基底,因此难以捕捉到细致的运动变化。

另一个代表性方法 MoSca 使用数百个三维节点建模运动,每个高斯从周围节点中插值得到其变形。这种大量的运动节点带来了极高的自由度,使得优化容易对训练视角产生过拟合。其他方法也面临类似的问题:要么难以捕捉精细细节,要么由于过拟合导致在空间和时间维度上无法实现平滑的高质量重建。

为了解决上述问题,本文介绍一种新颖的分层运动表示方法[1],能够在粗略与精细两个层面上同时建模运动。这种方法可以实现对动态三维场景的高质量单目重建,同时保持时空一致性并呈现细节。

具体来说,我们的分层运动表示采用树状结构实现,每个节点表示其相对于父节点的相对运动。在假设根节点固定在世界坐标原点的前提下,可以通过树状结构的层级关系迭代地推导出每个节点相对于世界坐标的全局运动。该设计允许不同层级的节点表达不同层次的运动细节,从而实现粗略与精细运动的有效分解。

核心思想是:在日常生活场景中,精细的运动通常与粗略的运动相关联。例如,手指的运动可以分解为手指相对于手腕的精细运动,再加上手臂的粗略运动。这种分解的优势在于,它不仅能简化复杂运动的学习过程,还能够提供更合理的运动表示:粗略运动有效捕捉时空平滑性,而精细运动则增强了细节的表达能力。

此外,从评估的角度来看,我们发现,由于单目动态场景重建任务本身高度不适定,常用的像素级指标(例如 PSNR)容易受到诸如深度模糊或摄像机参数估计不准确等因素的影响,因此在像素错位时难以准确反映重建质量。因此,我们提出采用感知指标来评估渲染质量。定量结果也表明,这种感知指标与人类主观感知更加一致。

我们在多个标准基准数据集上对所提出的方法进行了评估,结果在定性和定量上均优于现有方法。尤其值得注意的是,我们的方法在运动的时空平滑性以及细节还原方面实现了显著提升。

主要贡献

  • 提出了一种新颖的分层运动表示方法,将复杂的运动分解为平滑的粗略运动和细致的精细运动,为高斯提供了更具结构性的变形方式,从而提升了对动态三维场景的表达能力。
  • 指出现有像素级指标在评估单目动态场景渲染质量方面存在的局限性,并提出采用更合适的感知指标进行评估。
  • 在定性和定量评估中均达到了当前最先进的效果。

项目链接:https://pfnet-research.github.io/himor/

具体方法

给定一个具有已校准相机参数的单目视频,该视频表示一个动态场景,我们的目标是重建一个动态的三维高斯表示,其中包括规范帧中的高斯和用于对其进行变形的运动序列。

预备知识:三维高斯喷溅

三维高斯喷溅使用一组各向异性的三维高斯基元来表示静态场景,从而实现实时的真实感渲染。每个三维高斯基元  的参数包括:

  • 均值 
  • 协方差矩阵 
  • 不透明度 
  • 通过球谐系数  所决定的视角相关颜色,其中  是球谐系数的阶数

从参数为  的相机进行渲染时,每个三维高斯首先被投影为图像平面上的二维高斯,其均值和协方差分别为:

然后,二维高斯按照深度排序,并通过高效的可微光栅化器使用 alpha 混合进行渲染,计算如下:

其中,

 为像素位置, 为与该像素射线相交的高斯数量。

为了将三维高斯扩展至动态场景,可对高斯施加变形,将其从静态的规范帧变换至目标帧。设从规范帧到时间  的变换为 ,则变形后的高斯为:

其中  与  在时间上保持不变。

分层运动表示

我们方法的核心在于提出一种分层运动表示,用于对三维高斯进行变形,以实现动态三维场景重建。具体而言,分层运动表示是一个树状图结构,每个节点表示相对于其父节点的  运动序列。高斯的变形通过其在规范帧中附近叶子节点的运动加权计算得出。​

表达形式

我们首先介绍分层运动表示的表达形式。树中的每个节点都表示一个随时间变化的  变换序列:

其中  表示该节点从规范帧到时间  的变换。虽然可以直接为每个节点分配一个独立的运动序列,但我们考虑到运动的低秩特性,提出使用共享的运动基底来建模节点的运动。

一个运动基底表示为一组随时间变化的  变换序列:

我们的目标是将目标运动序列表示为若干运动基底的加权和。设某父节点有  个子节点,使用  个运动基底 ,每个子节点有权重系数 ,则该子节点的运动为:

这种表达是递归定义的,其中根节点的运动固定为单位矩阵。作为父节点时,节点拥有一组运动基底;作为子节点时,节点拥有相应的加权系数。树结构中,根节点只作为父节点,叶子节点只作为子节点,中间节点既作为父节点也作为子节点。

由于该结构具有层级性,每个节点的运动表示其相对于父节点的相对运动,而非绝对运动。这种建模方式允许将运动分解为浅层节点表示的粗略部分和深层节点表示的精细部分,保留细节表达能力的同时简化了复杂运动的学习。每个节点相对于世界坐标的全局运动可以通过层层组合其上级节点的  变换获得。

我们提出分层结构的动机有两方面:一是日常生活中的运动通常可以分解为粗略、细致甚至更细致的部分,因此我们采用层次树结构以实现从粗到细的建模;二是运动具有低秩性质,且邻近区域的运动通常相似,因此我们仅使用有限的运动基底和节点进行建模。​

高斯的变形

根据上述分层运动结构,我们可以计算所有节点的运动序列。对于非叶子节点(有子节点的节点),其运动表示为下一层更精细节点提供粗略的运动基础;而叶子节点则拥有最精细的运动,我们用它们来指导高斯的变形。

设高斯  的变形为 ,其由附近的叶子节点集合  中的  个最近邻节点的运动加权插值得出:

其中, 表示高斯  在规范帧中最接近的  个叶子节点的索引, 是权重,通过以下高斯函数计算:

其中  和  分别是第  个节点在规范帧中的位置和影响半径, 是归一化因子。我们使用双四元数进行插值以获得更好的插值效果。

与对每个高斯单独建模变形的方法不同,从运动节点插值得到的变形场在空间上更加平滑。同时,运动节点可以从更大范围内的高斯接收梯度,从而使变形优化更加稳定。​

初始化

由于单目动态三维重建问题本身具有高度的不适定性,我们参考以往工作,使用预训练模型(如二维跟踪、深度估计)来初始化运动表示。

在优化初期,分层结构仅包含一层节点(即图中的橙色节点,其父节点为根节点)。随着优化进行,节点层级逐步扩展。

初始化阶段需确定第一层节点共享的运动基底及每个节点的系数。我们首先通过相对深度图对前景的二维轨迹进行反投影,获得三维轨迹。然后使用 K-Means 聚类得到  个聚类中心,从而定义  条三维轨迹。由于这些轨迹仅包含平移分量,我们通过时间序列上的 Procrustes 配准求解其旋转部分,获得  个完整的  序列作为运动基底。我们选择三维轨迹可见点最多的帧作为规范帧,从该帧中采样节点位置,并使用基于距离的反比加权方式初始化每个节点的运动基底系数。

更精细层级的节点在优化过程中迭代添加。操作过程与第一层节点初始化类似:对每个叶子节点,先选取一定范围内的高斯,并计算其相对于该节点的相对运动。再对这些相对运动使用 K-Means 聚类,聚类中心作为子节点共享的运动基底。子节点从这些高斯中下采样得到,并根据其位置与运动基底中心的距离初始化系数。与第一层节点不同的是,此处使用的是已配向的高斯,因此不再需要求解 Procrustes 问题。​

节点加密

由于初始节点仅由规范帧中可见区域的三维轨迹构建,难以有效建模规范帧中不可见区域的运动。因此,我们采用逐步节点加密策略来覆盖整个场景中的运动。

类似于三维高斯密度增强的策略,可依据光度损失梯度添加新高斯。以往工作也采用了类似的基于梯度的节点添加策略。但我们发现,仅依赖该策略可能不足。例如,对于颜色较为均匀但初始节点稀疏的区域,仍可能无法生成新节点,导致运动无法被充分建模。

因此我们提出更直观的策略:对于每个高斯,若其附近的节点密度不足以提供有效的运动插值,则在其周围添加新节点。我们通过计算高斯与其  个最近邻节点之间的轨迹曲线距离来衡量节点密度:

其中  表示两个点随时间变化的轨迹, 为欧氏范数。对于曲线距离超过设定阈值的高斯,我们在其附近添加新节点。

我们在优化初期周期性地应用该策略,在若干步之后,再结合以往方法中提出的基于梯度的策略进一步添加或剪枝节点。

损失函数设计

刚性损失

刚性损失通过限制相邻区域中的位移、速度等变化,来对变形进行约束,从而实现局部刚性运动,并更好地保持几何结构。已有工作采用了类似的刚性损失来约束运动。

然而,这些方法常面临两难局面:约束过弱可能不起作用,导致运动发散;而约束过强则可能抑制对精细运动的表达。

得益于我们分层结构的设计,我们可以根据节点所在的层级,施加不同强度的约束。具体来说,对浅层节点施加更强的刚性约束,以强化其平滑、粗略的运动;对深层节点则施加更弱的约束,从而使其能灵活地捕捉精细运动。分层结构与层级约束强度的结合,使得我们能够以从粗到细的方式分解运动。​

总体损失

为了缓解单目视频重建问题的病态性,我们在优化过程中引入了预训练模型的知识,并通过多项损失函数来约束学习过程。总损失包括以下项:

  • 渲染损失 
  • 前景掩膜损失 
  • 深度损失 
  • 跟踪损失 
  • 刚性损失 

其中,掩膜损失  使用预训练的分割模型生成的前景掩膜作为监督;深度损失  使用由单目深度估计模型预测的相对深度图作为监督,并与 Lidar 深度或 COLMAP 深度对齐。为了更好地恢复运动,我们引入了跟踪损失 ,该损失度量渲染出的点与预训练二维跟踪模型预测的点之间的误差。

将这些损失结合后,最终总损失函数表达如下:

其中各项的权重为经验设定。我们对规范帧中的高斯和分层运动表示(HiMoR)进行联合优化以最小化上述总损失。

实验效果

总结一下

HiMoR是一种结合3D高斯表示的全新分层运动表示方法,显著提升了单目动态三维重建的质量。HiMoR 利用树状结构,以由粗到细的方式表示运动,为高斯提供了更具结构性的变形方式。我们还指出了像素级指标在评估单目动态三维重建时的局限性,并提出使用更可靠的感知指标作为替代。

局限性:对于在规范帧中不存在的部分(例如新出现的物体或新暴露的场景区域),难以进行准确的建模。

未来方向:可以考虑为新出现的物体提供单独的分支,或设计一个自适应的规范空间。

参考

[1] HiMoR: Monocular Deformable Gaussian Reconstruction with Hierarchical Motion Representation

#三维部件编辑与自动绑定框架

D领域「源神」又开了两个新项目

在不久之前报道文章《3D领域DeepSeek「源神」启动!国产明星创业公司,一口气开源八大项目》中,我们曾介绍到,国内专注于构建通用 3D 大模型的创业公司 VAST 将持续开源一系列 3D 生成项目。

近日,新的开源项目它来了,包括针对任意三维模型生成完整可编辑部件的 HoloPart 与通用自动绑定框架 UniRig。

今天,就让我们一起围观下这两个新的3D开源项目。

  1. HoloPart:为任意三维模型生成完整、可编辑的部件

论文标题:HoloPart: Generative 3D Part Amodal Segmentation

论文地址: https://arxiv.org/abs/2504.07943

项目主页: https://vast-ai-research.github.io/HoloPart

代码地址: https://github.com/VAST-AI-Research/HoloPart

Demo: https://huggingface.co/spaces/VAST-AI/HoloPart

huggingface daily paper:https://huggingface.co/papers/2504.07943

3D 内容生产面临的一个关键痛点,是三维模型的部件及编辑挑战。

你是否曾尝试编辑网上下载的、扫描得到的、或是 AI 生成的三维模型?它们往往是「一整坨」的几何体,想要调整、驱动或重新赋予某个独立部件(比如椅子腿、角色眼镜)不同的材质都极其困难。

图片

现有的三维部件分割技术能识别出属于不同部件的可见表面块,但往往得到的是破碎、不完整的碎片,这极大地限制了它们在实际内容创作中的应用价值。

HoloPart 引入了一项新任务:三维部件完整语义分割(3D Part Amodal Segmentation)——它不仅是将三维形状分解为可见的表面块,而是分解成其背后完整的、包含语义信息的部件,甚至能推断出被遮挡部分的几何结构,即使部分被遮挡也能生成完整部件。

,时长01:10

开发者可以在huggingface上试玩。

,时长01:46

「看见」完整部件

HoloPart 是一种新型扩散模型,由 VAST 和港大联合研发。受到非模式化感知(Amodal Perception,即人类即使在物体部分被遮挡时也能感知到完整物体的能力)的启发,研究团队通过一个实用的两阶段方法来实现:

  • 初始分割:首先,利用现有的先进方法(如 SAMPart3D)获得初始的表面块(即不完整的部件)。
  • HoloPart 部件补全:这是关键所在。将不完整的部件块,连同整个形状的上下文信息一起,输入到新颖的 HoloPart 模型中。HoloPart 基于强大的扩散变换器(Diffusion Transformer)架构,能够生成该部件完整且合理的 3D 几何形状。

图片

HoloPart 工作原理 

HoloPart 不仅仅是「填补空洞」。它基于 TripoSG 三维生成基础模型的生成先验构建,通过在大型数据集(如 Objaverse)上进行广泛预训练,并在部件 - 整体数据上进行专门微调,从而获得了对三维几何的深刻理解。

针对部件补全这一特定任务,HoloPart 对 TripoSG 的扩散变换器架构进行了适配。其关键创新在于双重注意力机制:

  • 局部注意力(Local Attention):聚焦于输入表面块的精细几何细节,确保补全后的部件与可见几何无缝衔接。
  • 上下文感知注意力(Context - Aware Attention):关注整体形状以及该部件在其中的位置。这一关键步骤确保补全的部件在全局上是合理的——保持比例、语义和整体形状的一致性。 

这使得 HoloPart 能够智能地重建隐藏的几何细节,即使对于复杂部件或存在严重遮挡的情况,也能尊重物体的整体结构。

在该项目中,研究团队还利用 ABO 和 PartObjaverse - Tiny 数据集建立了新的基准测试来评估这项新任务。实验证明,在处理这种具有挑战性的部件补全任务时,HoloPart 的性能显著优于现有的各种先进形状补全方法。

从效果上看,差异是肉眼可见的:其他方法在处理复杂结构时常常失败或产生不连贯的结果,而 HoloPart 则能持续生成高质量、高保真的完整部件,并与原始形状完美契合。

图片

图片

解锁下游应用

通过生成完整的部件,HoloPart 解锁了一系列以前难以甚至无法自动实现的强大应用: 

  • 直观编辑:轻松抓取、缩放、移动或替换完整部件(如图中的戒指、图中的汽车编辑)。 
  • 便捷的材质分配:将纹理或材质清晰地赋予给完整的组件。 
  • 适用于动画的资产:生成适合绑定和动画制作的部件。 
  • 更智能的几何处理:通过处理连贯的部件,实现更鲁棒的网格重划分 (Remeshing) 等几何操作。
  • 部件感知的生成:这项工作为未来能够在部件层面创建或操纵三维形状的生成模型奠定了基础。 
  • 几何超分辨率:HoloPart 甚至展示了通过用高数量的 token 来表征部件,从而提升部件细节的潜力。

图片

  1. 统一模型绑定万物:UniRig 通用自动绑定框架

图片

  • 论文标题:One Model to Rig Them All: Diverse Skeleton Rigging with UniRig
  • 论文链接:https://zjp-shadow.github.io/works/UniRig/static/supp/UniRig.pdf
  • 代码地址:https://github.com/VAST-AI-Research/UniRig
  • 项目主页:https://zjp-shadow.github.io/works/UniRig/
  • HuggingFace 主页:https://huggingface.co/VAST-AI/UniRig

核心方法:自回归预测与创新的 Tokenization

UniRig 的核心在于借鉴了驱动语言和图像生成领域进步的大型自回归模型的力量。

但 UniRig 预测的不是像素或文字,而是 3D 骨骼的结构——逐个关节地进行预测。这种序列化的预测过程是确保生成拓扑结构有效骨骼的关键。

实现这一目标的关键创新是骨骼树 Tokenization (Skeleton Tree Tokenization) 方法。

将具有复杂关节相互依赖关系的层级化骨骼结构,表示为适合 Transformer 处理的线性序列并非易事。UniRig 的方案高效地编码了: 

  • 关节坐标:骨骼关节的离散化空间位置。 
  • 层级结构:明确的父子关系,确保生成有效的树状结构。 
  • 骨骼语义:使用特殊 Token 标识骨骼类型(例如,Mixamo 等标准模板骨骼,用于头发 / 布料模拟的动态弹簧骨骼),这对于下游任务和实现逼真动画至关重要。 

这种优化的 Tokenization 方案,与朴素方法相比,序列长度减少约 30%,使得基于 OPT 架构的自回归模型能够有效地学习骨骼结构的内在模式,并以形状编码器处理后的输入模型几何信息作为条件。

图片

不止骨骼:精准蒙皮与属性预测

在预测出有效的骨骼后,UniRig 采用骨骼 - 表面交叉注意力 (Bone - Point Cross Attention) 机制来预测每个顶点的蒙皮权重。该模块有效地捕捉了每根骨骼对其周围模型表面的复杂影响,融合了来自模型和骨骼的几何特征,并通过关键的测地线距离信息增强了空间感知能力。

 此外,UniRig 还能预测骨骼特定属性(如弹簧骨骼的刚度和重力影响),使得基于学习参数的、更符合物理规律的次级运动成为可能。研究团队在训练中通过可微分的物理模拟对此进行了评估,以增强最终结果的真实感。 

图片

,时长00:16

Rig - XL 数据集:以数据驱动泛化能力

强大的模型离不开高质量数据的支撑。为了训练 UniRig 以获得广泛的适用性,研究团队还整理构建了 Rig-XL——一个全新的、包含超过 14000 个多样化已绑定 3D 模型的大规模数据集。 

Rig - XL 源自 Objaverse - XL 等资源并经过精心清洗,涵盖多个类别(双足、四足、鸟类、昆虫、静态物体等),为训练一个真正具备泛化能力的绑定模型提供了必要的规模和多样性。研究团队还利用 VRoid 数据集进一步优化模型在处理包含弹簧骨骼的精细动漫风格角色上的性能。

图片

图片

图片

图片

业界最优的性能表现

UniRig 显著提升了自动绑定技术的现有水平:

  • 高精度:在多个关键指标上远超现有学术界和商业方法,在具有挑战性数据集上,绑定精度(关节预测)提升 215%,动画精度(动画下的网格变形)提升 194%。
  • 强通用性:在广泛的模型类别上展现出鲁棒性能——精细角色、动物、复杂的有机和无机形态——这些都是以往方法经常遇到困难的领域。
  • 高鲁棒性:生成拓扑合理的骨骼和真实的蒙皮权重,在动画驱动下产生优于先前学术方法及常用商业工具的变形效果。
  • 高效率:优化的 Tokenization 和模型架构带来了实用的推理速度(1-5 秒)。

图片

#SLAM3R

基于单目视频的实时密集3D场景重建

北京大学陈宝权团队和香港大学等高校及业界机构联合推出实时三维重建系统 SLAM3R,首次实现从长视频(单目 RGB 序列)中实时且高质量地重建场景的稠密点云。SLAM3R 使用消费级显卡(如 4090D)即可达到 20+ FPS 的性能,重建点云的准确度和完整度达到当前最先进水平,同时兼顾了运行效率和重建质量。

该研究成果被 CVPR 2025 接收为 Highlight 论文,并在第四届中国三维视觉大会(China3DV 2025)上被评选为年度最佳论文,合作者为董思言博士(共同一作)、王书哲博士、尹英达博士、杨言超助理教授和樊庆楠博士,第一作者为北京大学本科生刘宇政。

  • 论文标题:SLAM3R: Real-Time Dense Scene Reconstruction from Monocular RGB Videos
  • 论文地址:https://arxiv.org/pdf/2412.09401
  • 代码地址:https://github.com/PKU-VCL-3DV/SLAM3R

,时长00:22

SLAM3R 的交互界面(视频经过加速)。用户只需使用普通手机摄像头拍摄 RGB 视频,即可通过部署于服务器的 SLAM3R 系统实时重建出高质量的场景稠密点云,将二维视频转化为"可交互"、"可编辑"的三维世界。

在计算机视觉与机器人感知领域,基于单目摄像头的高质量三维环境感知与重建一直是个极具挑战性的课题——这主要是因为需要从有限的二维观测中恢复在相机投影过程中丢失的三维空间信息。过去的三十年间,研究者们建立了较为完善的多视角几何理论和计算框架,通常依赖多种算法的集成,包括运动恢复结构(Structure-from-Motion,简称 SfM)、同时定位和地图构建(Simultaneous Localization and Mapping,简称 SLAM)以及多视角立体视觉(Multi-View Stereo,简称 MVS)等。

由于拥有扎实的数学原理和优化算法作为"护城河",三维重建领域较少受到神经网络等深度学习方法的"入侵"。在传统方法中,神经网络主要作为算法流程的辅助模块,用于提升特征匹配的鲁棒性和深度估计的完整性。近年来,随着以 DUSt3R 为代表的大型神经网络模型出现,这一传统范式正在改变:通过端到端的前馈神经网络,可以直接从多视角 RGB 图像预测三维几何,避免了传统方法中迭代优化所带来的效率瓶颈。

SLAM3R(发音:/slæmər/)进一步革新了这一范式的演进,首次将大模型应用于长视频序列的稠密重建任务。该方案通过前馈神经网络,将局部多视角三维重建与全局增量式坐标配准无缝集成,为基于单目 RGB 视频输入的稠密点云重建提供了高效率解决方案,无需迭代优化相机参数或三维点云。实验结果表面,SLAM3R 不仅在多个数据集上展现出最先进的重建质量,还能在消费级显卡上保持 20+ FPS 的实时性能。更为重要的是,SLAM3R 的成功展示了纯数据驱动的方法在长视频序列三维几何感知任务中的潜力,为未来重建系统的研究提供了新思路。

,时长00:13

SLAM3R 渐进式重建过程展示。输入 RGB 图像序列(如左上图所示)后,SLAM3R 首先进行局部多视角三维重建(左下图),然后执行全局增量式坐标配准(右图),从而逐步构建完整场景的点云模型。

SLAM3R 渐进式重建过程展示。输入 RGB 图像序列(如左上图所示)后,SLAM3R 首先进行局部多视角三维重建(左下图),然后执行全局增量式坐标配准(右图),从而逐步构建完整场景的点云模型。

三位一体的挑战:准确、完整、高效

基于多视角几何理论的传统方法通常将三维重建分为两个阶段:首先通过 SLAM 或 SfM 算法估计相机参数和场景结构,然后使用 MVS 算法补充场景的几何细节。这类方法虽然能够获得高质量的重建结果,但是需要离线优化等处理,因此实时性能较差。

近年来,DROID-SLAM 和 NICER-SLAM 等集成了相机定位和稠密重建的 SLAM 系统相继问世。然而,这些系统或是重建质量不够理想,或是无法达到实时运行的要求。DUSt3R 开创性地提出端到端的高效点云重建,但其仅局限于图像对(双目),在视频场景下仍需全局迭代优化,因而影响了效率。同期工作 Spann3R 虽将 DUSt3R 扩展为增量重建方式并提高了效率,但也带来了明显的累积误差,降低了重建质量。

此外,重建的准确度和完整度之间存在着固有的权衡关系,导致当前重建系统难以同时实现准确、完整和高效这三个目标。因此,在单目视频稠密重建领域中,要同时达到高质量和高效率极具挑战性。

SLAM3R:大模型时代背景下的实时稠密重建系统

DUSt3R 首次证明了大型神经网络模型的 Scaling Law 在双目立体视觉中的可行性。SLAM3R 在此基础上更进一步,通过引入传统 SLAM 系统的经典设计理念,成功将大模型应用于长视频序列的稠密重建任务。这种端到端的方法不仅具有天然的高运行效率,而且经过大规模训练后能达到高质量的重建效果,从而实现了一个在准确度、完整读和效率方面都表现出色的三维重建系统。

SLAM3R 系统示意图。给定单目 RGB 视频,SLAM3R 使用滑动窗口机制将其转换为互有重叠的片段(称为窗口)。每个窗口输入至 Image-to-Points(I2P)网络,用于恢复局部坐标系中的稠密点云。随后,这些局部点逐步输入至 Local-to-World(L2W)网络,以创建全局一致的场景模型。I2P 网络选择一个关键帧作为参考建立局部坐标系,并利用窗口中的其余帧估计该窗口的稠密点云。第一个窗口用于建立世界坐标系,之后 L2W 网络逐步融合后续窗口。在增量融合过程中,系统检索最相关的已注册关键帧作为参考,并整合新的关键帧。通过这个迭代过程,最终完成整个场景的重建。

SLAM3R 系统示意图。给定单目 RGB 视频,SLAM3R 使用滑动窗口机制将其转换为互有重叠的片段(称为窗口)。每个窗口输入至 Image-to-Points(I2P)网络,用于恢复局部坐标系中的稠密点云。随后,这些局部点逐步输入至 Local-to-World(L2W)网络,以创建全局一致的场景模型。I2P 网络选择一个关键帧作为参考建立局部坐标系,并利用窗口中的其余帧估计该窗口的稠密点云。第一个窗口用于建立世界坐标系,之后 L2W 网络逐步融合后续窗口。在增量融合过程中,系统检索最相关的已注册关键帧作为参考,并整合新的关键帧。通过这个迭代过程,最终完成整个场景的重建。

SLAM3R 主要由两个部分组成:Image-to-Points(I2P)网络和 Local-to-World(L2W)网络。I2P 网络负责从视频片段中恢复局部坐标系下的稠密点云,而 L2W 网络则将局部重建结果逐步注册到全局场景坐标系中。在整个点云重建过程中,系统直接使用网络在统一坐标系中预测 3D 点云,无需显式计算相机参数和三角化场景点云,从而避免了传统重建方法中迭代优化等耗时的操作。

窗口内的多视角三维重建(I2P 网络)。在每个窗口内,选择一帧作为关键帧来建立参考系,其余帧(称为支持帧)用于辅助该关键帧的重建。我们基于 DUSt3R 解码器设计了关键帧解码器,通过引入简单的最大值池化操作来聚合多个支持帧的交叉注意力特征,从而有效整合多视角信息。这一改进在保持模型结构简洁的同时具有多重优势:1)继承 DUSt3R 预训练权重,从而保证预测质量;2)未引入过多计算开销,保持实时性能;3)支持任意数量的图像输入,具有良好的扩展性。

窗口间的增量式点云注册(L2W 网络)。窗口间的注册与窗口内的重建相似,不同之处在于前者使用多帧重建结果作为参考系,用以辅助注册新的关键帧。因此,L2W 采用了 I2P 的整体架构。在此基础上,引入简单的坐标编码器来处理点云输入,并通过逐层特征叠加的方式注入解码器。这种机制让模型在解码过程中持续接收几何和坐标系的双重引导,既确保了信息传递的充分性,又避免了复杂特征交互设计带来的计算负担。这一设计巧妙地继承了 DUSt3R 的坐标转换能力,并将其转化为可控的注册过程。

场景帧检索模块。我们提出了一种前馈检索机制,用于确定 L2W 网络在注册新关键帧时所使用的参考帧。当 SLAM3R 系统需要调用 L2W 融合新窗口(关键帧)时,系统会先通过场景帧检索模块从已注册窗口中检索 K 个最优参考帧,再将这些参考帧与新帧一同输入 L2W 模型进行坐标系转换。这种设计既保持了全局一致性,又有效缓解了传统 SLAM 系统中的累积误差问题。检索模块通过在 I2P 网络中附加额外的轻量级 MLP 实现,完成前馈式快速检索。

大规模训练。SLAM3R 系统的各个模块均采用前馈式神经网络实现,最大程度地复用了 DUSt3R 大规模预训练的权重,并在大规模视频数据集上进行训练。具体来说,我们收集了约 85 万个来自 ScanNet++、Aria Synthetic Environments 和 CO3D-v2 数据集的视频片段,使用 8 张 4090D 显卡进行训练。训练完成后,该系统可在单张 4090D 显卡上实现实时推理。

单目视频稠密重建迈入高质高效新时代

我们在室内场景数据集 7-Scenes 和 Replica 上评估了 SLAM3R。在重建速度较快(FPS 大于 1)的方法中,SLAM3R 实现了最佳的准确度和完整度。

图片

7-Scenes(上方表格)和 Replica(下方表格)数据集的重建结果评估。我们以厘米为单位报告重建的准确度和完整性。FPS 栏目的颜色渐变从红色变为黄色,再变为绿色,表示实时性能提升。

7-Scenes(上方表格)和 Replica(下方表格)数据集的重建结果评估。我们以厘米为单位报告重建的准确度和完整性。FPS 栏目的颜色渐变从红色变为黄色,再变为绿色,表示实时性能提升。

值得特别指出的是,即使没有进行任何后续全局优化,SLAM3R 的重建质量也达到了与需要复杂优化的离线方法相当的水平。这表明 SLAM3R 在准确度、完整度和运行效率三方面达到了理想的平衡。

,时长00:14

SLAM3R 基于公开数据集与日常视频的场景重建结果展示。

未来展望

SLAM3R 在保持 20+ FPS 实时性能的同时,其重建质量可达到离线方法相近的水平,旨在推动三维重建向高质量、高效率方向发展。通过将传统多阶段的三维重建流程简化为轻便的前馈网络,SLAM3R 降低了使用门槛,使三维重建有望从专业领域拓展至大众化应用。随着模型轻量化技术的突破,该方案未来有望进一步应用于移动终端,为三维资产快速获取、通用人工智能和具身智能的落地提供基础三维数据支持。

目前,SLAM3R 仍存在诸多局限性。由于跳过了相机参数预测和优化等环节,SLAM3R 无法执行显式的全局优化(Bundle Adjustment)。因此,在大规模场景中,系统仍会受到累积误差的影响。此外,基于场景重建推导出的相机参数的精度仍不如专门针对相机定位的 SLAM 系统。解决这些局限性是我们未来工作的重点。

#xxx
#xxx
#xxx
#xxx
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值