24年11月来自武汉大学、华中理工、西安交大、香港中文大学广州分校和浙大的论文“Sim Anything: Automated 3D Physical Simulation of Open-world Scene with Gaussian Splatting”。
3D 生成模型的最新进展为模拟动态 3D 目标运动和定制行为开辟了新的可能性,但创建此类内容仍然具有挑战性。当前的方法通常需要手动分配精确的物理属性以进行模拟,或者依靠视频生成模型来预测它们,这需要大量计算。本文重新思考多模态大型语言模型 (MLLM) 在基于物理模拟中的使用,提出 Sim Anything,一种基于物理的方法,赋予静态 3D 目标交互动态。从详细的场景重建和目标级 3D 开放词汇分割开始,然后进行多视图图像修复。受人类视觉推理的启发,提出基于 MLLM 的物理属性感知 (MLLM-P3),以零样本方式预测目标的平均物理属性。然后,材料属性分布预测模型 (MPDP) 根据平均值和目标的几何形状估算完整分布,将问题重新表述为概率分布估算,以降低计算成本。最后,使用通过物理-几何自适应采样 (PGAS) 策略采样的粒子模拟开放世界场景中的目标,有效捕捉复杂变形并显著降低计算成本。
随着 3D 表示的发展,神经辐射场 (NeRF) [25] 和 3D Gaussian Splatting(3DGS) [17] 为 3D 重建和 3D 表示提供了新的视角 [36, 37]。然而,这些方法无法模拟模拟环境中与 3D 资产的交互 [33, 39],这对于生成对新交互的真实目标响应至关重要,例如外部力或许多应用中的智体操纵,例如虚拟现实 [16]、具身智能 [24]。
一些最近的方法旨在弥合渲染和模拟之间的差距,使用物理模拟器将基于物理的先验集成到 3D 目标表示中 [4, 7, 28]。例如,PAC-NeRF [21] 从多视角视频中估计目标的几何和物理参数,然后将物理模型与基于 NeRF 的表示相结合。类似地,PhysGaussian [40] 首先将物理参数注入 3DGS 目标,然后使用基于物理的模拟器预测运动。然而,它们处理真实目标的能力有限,因为它们需要具有手动分配参数的预定义材料模型,或者依赖多视角视频来预测每个目标的物理属性。
为了自动设置参数,一些方法 [14, 22, 45] 利用在现实世界视频数据上训练的视频生成模型 [2] 来估计物理材料参数。例如,PhysDreamer [45] 采用稳定的视频扩散模型来学习 Young 目标模。然而,从视频扩散先验中学习材料物理属性在实践中计算成本高昂且耗时。此外,视频扩散模型的可控性有限,往往不遵循物理定律 [31, 50]。此外,这些模型通常也仅限于非刚体,因此不适合推导大型刚体(如杯子、碗和椅子)的物理特性。然而,人类非常擅长根据视觉信息预测物体的物理特性 [8, 9]。因此,有这个问题:如何才能开发仅从视觉数据中感知物理的模型?
在各种应用中,对动态 3D 动画创作的需求显着增长,包括视频游戏、虚拟现实和机器人模拟 [11, 47– 49]。随着视频生成模型的成功,一些方法 [50] 试图利用视频扩散模型来指导 3D 变形的预测。例如,DreamGaussian4D [31] 使用预生成的视频来监督静态场景的变形。然而,这些方法产生的变形可能并不总是准确或物理上合理的。最近的研究 [26, 51] 将物理模拟引入 3D 变形,并能够在任何物理相互作用下合成运动。虚拟弹性物体 [4] 使用多视图数据联合重建弹性物体的几何形状、外观和物理参数。SpringGaus [51] 将 3D 弹簧质量模型集成到 3D 高斯核中,然后从多视点的物体视频中模拟弹性物体。 PAC-NeRF [21] 和 PhysGaussian [40] 分别将基于物理的模拟与 NeRF [25] 和 3DGS [17] 相结合,以模拟弹性物体的变形。然而,这些方法要么需要在模拟之前手动设置 3D 目标的物理属性,要么依赖多视角视频来预测物理属性。
为了避免手动设置参数,一些工作使用视频生成模型 [2] 来估计物理材料参数 [14]。PhysDreamer [45] 和 DreamPhysics [14] 利用视频生成模型来估计物理材料参数(例如 Young 模量),而 Physics3D [22] 进一步优化了 3D 目标的更广泛的物理参数。然而,这些方法的计算成本很高,因为通过视频扩散先验学习材料特性非常耗时。此外,生成的视频的可控性有限,经常偏离物理定律 [31, 50],此外,这些模型通常仅限于非刚体,因此不适合确定大型刚体(如桌子、椅子和沙发)的物理属性。受人类如何感知物体的物理属性的启发 [8, 9],利用多模态大型语言模型 (MLLM) 对 3D 场景中目标物理属性的平均值进行零样本预测,从而缩短推理时间。然后,使用提出的 MPDP 模型来预测这些属性的完整分布。
物理感知是一个长期存在的难题 [38]。先前的研究表明,深度学习模型可以表现出与人类相似的物理感知能力 [1, 12]。大多数先前的研究侧重于动态处理目标属性,要么通过观察目标的行为 [21],要么通过在 3D 物理引擎中与其交互 [27, 42]。其他研究也探索直接从静态图像估计材料属性 [1, 34]。然而,这些工作大多关注特定的材料属性,如质量或柔软度,通常依赖于特定于任务的数据。相比之下,利用 MLLM,如 GPT-4V [41],以零样本方式生成各种物理属性,如质量、Young 模量和泊松比。
材料点法 (MPM) [13] 是一种流行的多物理现象模拟框架,因为它能够处理拓扑变化和摩擦相互作用。与基于网格的方法不同,MPM 使用基于网格空间中的粒子来表示连续体,这使其非常适合基于点的三维高斯表示。
3D 高斯splatting (3DGS) 将场景表示为点云,每个点建模为由中心点 (平均值)和协方差矩阵定义的 3D 高斯。
由于监督有限,从静态场景预测 3D 目标的各种物理属性是一项极具挑战性的任务。不再从生成模型或多视角视频中捕获物理数据 [7, 14, 21, 22, 45,51],而是从新的角度重新表述这项任务,将其分解为一组子任务。具体来说,如图所示,首先用一组基础模型 [19, 23, 46] 对图像进行分割,然后提升这些 2D 分割掩码,通过辐射场渲染分割场景中的 3D 目标。本文提出基于 MLLM 的物理属性感知(MLLM-P3)来预测这些属性的平均值。然后,使用材料属性分布预测 (MPDP) 模型来估计完整分布,使用物理-几何自适应采样 (PGAS) 策略,去采样驱动粒子,模拟目标动态。
3D开发词汇分割
对于每个场景,首先在给定的图像和相机姿势上训练一个 3DGS 模型。受先前研究 [32] 的启发,集成 2D 开放词汇模型,如用于检测的 Grounding DINO [23]、用于分割的 SAM [19] 和用于标记的 RAM [46]。这些模型无需文本输入即可自动分割图像中的目标。具体来说,用 RAM 来标记图像,使用 Grounding DINO 根据标签创建边框,使用 SAM 将这些边框细化为精确的掩码。这种方法可以使用专家模型实现全自动图像标注。
经过 2D 开放词汇分割后,每个分割后的图像都包含每个目标的语义特征。用辐射场渲染将这些 2D 掩码投影到 3D 空间中。受最近研究 [43,48] 的启发,每个高斯保留其原始属性,并添加可学习的语义属性以编码目标语义。用零样本跟踪器 [5],为不同视图中的掩码分配唯一 ID,通过可微分渲染帮助区分 3D 场景中的类别(见上图所示)。从 3DGS 中提取目标会引入空洞,用 LaMa [35] 来修复这些空洞,以引导 3D 高斯修复,保持空洞外的高斯分布不变。
基于 MLLM 的物理属性感知
世界上的材料种类繁多,难以定义,许多材料看起来完全相同,仅凭局部外观无法区分。然而,人类可以通过将关于目标语义的高级推理与低级视觉线索相结合来推断材料成分。最近的研究 [6] 表明,多模态大型语言模型 (MLLM) 在复杂任务的逻辑推理和决策方面表现出色。受人类如何感知和推理所遇到目标物理属性的启发,提出基于 MLLM 的物理属性感知 (MLLM-P3),利用 MLLM 对材料及其物理属性进行开放词汇语义推理。
分割 3D 场景通常与其中的 3D 目标物理属性紧密相关。首先选择一个规范视图,并根据 3D 高斯的语义属性在 3D 场景中渲染一个目标。然后用 VQA 模型(如 BLIP [20])来生成图像的文本描述。然后将此描述连同图像一起传递给多模态大型语言模型 (MLLM)(如 GPT-4V [41]),提示它返回一个包含 K 个候选材料和信息的词典以及有关该目标是否为刚性的信息。计算图像与词典中材料之间 CLIP [30] 相似度得分,以选出最匹配的材料名称。最后,用选定的材料名称、图像和文本描述提示 MLLM 返回该物体的物理属性列表,M = ρ、E、ν,其中 ρ 是密度,E 是Young 模,ν 是泊松比。
虽然理论上 MLLM 可以直接从图像中提出材料,但将任务分解为两部分可以在实验中产生更可靠的结果。
基于物理的动力学
材料属性分布预测。即使对于由单一材料组成的目标,局部物理属性也会在目标的不同区域表现出固有的变化 [3]。此外,多模态大型语言模型 (MLLM) 估计的物理属性可能无法捕捉目标的 3D 结构。为了应对这些挑战,提出材料属性分布预测 (MPDP),并将问题从回归任务重新表述为概率分布估计任务。
具体来说,在合成数据集的一部分上训练网络 D/θ,使用目标的点云和预测的平均值作为输入,并由 Physics3D [22] 预测的所有粒子物理属性进行监督。其余合成数据保留用于在以后的实验中进行比较。该网络旨在预测跨粒子物理属性的几何感知概率分布 P。
然后,通过逐元乘法将分布 P 缩放到 MLLM 预测的全局平均值,从而得出材料场中每个点的最终物理属性值。这种方法可以有效地估计整个点云中每个点的物理属性,例如Young模和泊松比,同时避免每个粒子计算的开销。
使用物理-几何自适应采样进行模拟。渲染高保真 3D 场景通常需要数百万个 3D 高斯,这对于模拟来说是巨大的计算需求。为了减轻这种负担,本文实现一种子采样方法。具体来说,设计了一种物理-几何自适应采样 (PGAS) 策略。原始泊松盘采样(disk sampling)要求任何两个粒子之间的距离大于阈值 r。从初始点开始,PDS 然后尝试用新样本填充 r 和 2r 之间的带状环。
较软的物体和形状复杂的物体,需要更多的驱动粒子才能准确模拟其动态。为此,根据预测的物体Young模 E 和曲率 K 自适应地调整样本半径 r。
通过对较软的材料和高曲率区域使用较小的半径,PGAS 可以更准确地捕捉精细细节,提高变形模拟和复杂表面重建中的模型分辨率,如图所示。
MPM 驱动的基于物理动力学。为了模拟物理特性,用 MLS-MPM [13] 作为模拟器。在 MPM 中,连续体由分布在基于网格的空间粒子表示,这比基于网格的方法具有明显的优势。MPM 可以无缝应用于基于点表示中的 3D 高斯溅射 (3DGS)。
通过从多视图图像重建 3D 高斯来启动该过程,并执行内部粒子填充操作以进一步细化表示。然后,每个高斯核与一组物理属性相关联,这些属性旨在按照 [40, 45] 进行优化。然后,将前景区域离散化为网格结构,通常大小为 643。对于 MPM 模拟,在视频帧之间每个间隔使用 768 个子步,从而导致子步持续时间为 4.34 × 10−5 秒,以确保模拟动态的精度和准确性。所有实验均在单个 NVIDIA 3090 GPU 上进行。