创新跨模态结构对齐模块！3DAffordSplat：首个专为3DGS设计的大规模多模态功能数据集

本文链接：https://blog.csdn.net/xiaoganbuaiuk/article/details/147323538

三大优势和三大挑战

三维功能推理是具身智能体理解如何与环境中的物体进行交互的基础能力。通过识别三维物体支持特定操作的功能区域（例如可抓握、可拉动或可旋转的部位），机器人能够根据人类指令执行精确的操控任务。这项能力弥合了感知与行动之间的鸿沟，使得从家庭辅助到工业自动化等各类场景中的人机协作更加自然流畅。

现有功能推理方法主要基于图像、视频和点云表示，但这些方法均存在显著局限。基于图像的方法仅依赖二维投影，缺乏深度信息，难以完整捕捉物体的三维结构。视频虽能提供动态视觉线索，但无法直接表达三维空间信息，且标注困难，对交互过程中细微动态变化的表征能力有限。点云数据虽能直接呈现三维几何信息，但其离散特性导致表面连续性差，如图2所示，稀疏性和有限的几何分辨率使其难以精确表征复杂结构。这种离散采样的本质缺陷，使得点云数据无法完整表达连续表面和精细几何特征，而这恰恰是智能体进行精确推理的关键要素。

三维高斯泼溅（3DGS）技术的最新进展提供了突破性解决方案。该技术通过可学习参数的高斯基元对场景进行建模，兼具高保真场景重建和实时渲染能力。3DGS相较传统三维功能推理方法具有三大优势：

更高的几何精度和表面细节保留能力，解决了点云数据的离散性和不完整性问题
融合丰富的色彩信息，弥补了图像方法缺乏三维空间信息的缺陷
低计算需求的实时渲染性能（1080p分辨率下30+帧/秒），克服了视频方法在动态信息捕获和资源效率方面的局限。

这些特性使3DGS特别适用于对实时性和资源效率要求严苛的具身智能应用场景。

尽管优势显著，3DGS在功能推理领域的应用仍面临三大挑战：缺乏带功能标注的大规模3DGS数据集，制约模型训练与评估；现有模型专为点云或图像等离散数据设计，无法充分利用3DGS的连续特性，导致精度和效率潜力难以释放；点云与3DGS间的模态差异使得知识迁移困难——点云的稀疏噪声特性与3DGS的精细连续表征存在本质冲突，需要专门技术确保几何与语义一致性。更关键的是，传统3DGS语义嵌入方法存在根本性局限：为每个高斯基元静态分配单一语义特征的参数扩展技术，难以应对多属性功能场景的需求。在现实应用中，单个高斯基元往往需要同时参与多种功能上下文，这种单一语义限制严重制约了实际应用价值。

为解决这些挑战，本文介绍了3DAffordSplat[1]——首个带全面功能标注的大规模多模态3DGS功能推理数据集。如图1所示，该数据集包含三维高斯、点云和文本指令三种对齐模态，支持跨模态学习与知识迁移。数据集涵盖多样化的物体与场景，为功能推理模型的开发与评估提供了坚实基础。

基于该数据集，我们建立了首个3DGS功能推理的完整评估框架。基准测试沿用功能分析研究的经典指标（mIoU、AUC、SIM和MAE），在支持跨模态性能对比的同时，保持与现有点云基准的兼容性。该框架为不同方法提供公平比较平台，推动该领域研究发展。

我们进一步提出AffordSplatNet模型，这是首个可泛化的3DGS功能推理架构，通过建立稀疏点云与密集高斯表示间的跨模态结构对应关系实现知识迁移。模型创新的跨模态结构对齐模块利用结构一致性先验，有效对齐两种表征模态。这种互补表征间的精准对齐与知识迁移，不仅提升了功能推理精度，更增强了模型对几何变化和局部观测的鲁棒性。

核心贡献：

发布首个带全面功能标注的大规模多模态3DGS数据集3DAffordSplat，包含高斯、点云和文本指令三种模态；
提出新型3DGS功能推理模型AffordSplatNet，通过点云与高斯表示间的知识迁移提升精度与鲁棒性；
大量实验证实3DAffordSplat能有效增强现有点云方法在3DGS功能推理中的表现，AffordSplatNet在已知/未知场景下均超越现有方法，验证了其卓越的泛化能力。

3DAffordSplat 数据集

为支持本研究任务，我们提出了首个具有功能标注的大规模多模态3D高斯泼溅数据集3DAffordSplat，填补了3DGS功能推理领域的关键空白。与现有受限于稀疏几何采样和坐标敏感性的点云数据集不同，我们的数据集利用3D高斯泼溅的固有优势：23,677个高斯实例的高保真连续表面表示保留了细粒度功能细节，同时与8,354个点云的跨模态对齐实现了鲁棒的几何推理。如表1所示，3DAffordSplat独特地提供了6,631个人工标注的功能标签（覆盖21个类别和18种交互类型），每个物体-功能组合配有15组语言引导的问答模板。

数据收集

我们的3DAffordSplat包含三种模态：带标注的3DGS、带标注的点云和语言指令。

3D高斯数据
3DGS物体来源于ShapeSplat，涵盖21个类别。这些高斯数据与对应点云结合形成3DAffordSplat。我们按照3D AffordanceNet的标准对部分高斯数据进行了人工功能标注。

点云与指令
我们的数据集基于提供的点云和文本数据，筛选了21个物体类别和18种功能类型。每个物体类别关联多个功能，每个物体-功能组合配有对应的文本问答对。为更好适配任务，我们在指令数据中引入了新型答案格式：在每个句子表示功能的单词后立即插入特殊标记""，从而增强模型识别和定位功能语义的能力。

统计与设置

3DAffordSplat包含三种模态：文本描述、3D高斯和点云。详细统计信息见表1。具体而言，数据集包含8,354个点云物体（覆盖21个类别和18种功能类型），每个物体-功能组合配有15个问题和3个答案。基于不同组合，我们收集了大量高斯数据（总计23,677个高斯实例），其中为每个组合人工标注18个高斯实例用于验证和测试，共计6,631个高斯功能标注。我们提供两种数据集配置：

已知场景（Seen）：默认配置，训练和测试阶段共享相似的物体类别和功能类型分布。
未知场景（Unseen）：专门评估模型知识泛化能力，测试集包含与训练集完全不同的物体-功能组合。

预训练与评估协议

在预训练过程中，每个高斯实例随机分配同类别多个点云和从15个模板问题中采样的一个问题，以及固定答案作为文本标签。评估时，我们使用标注的高斯数据确保评估准确性，并通过固定问题集测试模型泛化能力。

评估指标
我们采用先前功能研究工作的指标：

平均交并比（mIoU）
曲线下面积（AUC）
相似度（SIM）
平均绝对误差（MAE）

这些指标支持跨模态性能比较，同时保持与现有点云基准的向后兼容性。该框架实现了不同方法间的公平比较，并为该领域研究提供了新方向。

AffordSplatNet

任务定义

给定一个三维高斯泼溅（3DGS）表示，其中表示高斯中心位置，表示尺度参数，表示旋转参数（统称为结构特征），以及不透明度和基于球谐函数的颜色特征（统称为外观特征）。我们假设物体的功能属性主要来源于局部结构特征，因此模型仅处理结构特征。对于给定的文本查询，模型输出文本响应和对应的三维高斯功能掩码，其中表示高斯数量。

初步处理

对于第批次的个三维高斯对象（每个对象的高斯数量为），我们采用自适应批处理策略：

降采样：将高斯数量降至批次中的最小值，以保持结构完整性并支持批训练。
零填充：将高斯数量填充至批次中的最大值，以生成完整掩码。

为了利用跨模态对齐，每个高斯实例与个相同功能类型的点云配对，其中表示点云密度。训练集包含元组。

架构概述

如图3所示，AffordSplatNet 的框架如下：

三维高斯编码：使用 PointNet++ 作为三维骨干网络，将高斯结构特征编码为多粒度特征，其中表示第层编码后的高斯数量，为特征维度。
文本查询处理：预训练语言模型（如 RoBERTa）提取文本查询中的标记的最后一层嵌入特征，并通过 MLP 投影为，同时生成文本响应。
多模态融合：通过跨注意力和通道注意力机制，将语言特征与多粒度几何特征在空间和通道维度融合：
- 空间融合：
- 通道融合：
粒度自适应选择：通过可学习门控权重动态加权多粒度特征，生成融合特征。
解码与掩码生成：使用逆距离加权（IDW）插值将特征上采样至原始高斯密度，并通过动态卷积核生成最终功能掩码。

跨模态结构对齐

在预训练阶段，我们提出基于结构一致性先验的跨模态对齐模块（CMSA），将点云功能区域与高斯功能区域映射到共享的维空间：

特征编码：
• 高斯功能区域特征：
• 点云功能区域特征：
结构相似性计算：通过 Chamfer 距离和温度参数加权损失：

训练目标

预训练阶段：最小化跨模态一致性损失。
微调阶段：联合优化功能掩码预测和文本生成：其中和分别处理类别不平衡和分割精度，为文本生成交叉熵损失。

实验效果

总结一下

3DAffordSplat是首个专为3DGS设计的大规模多模态功能数据集，通过丰富的物体类别和功能类型标注填补了该领域空白。基于此构建的AffordSplatNet模型创新性地采用跨模态结构对齐模块，有效弥合了点云与高斯表示之间的鸿沟，实现了更精准鲁棒的功能推理。大量实验验证了数据集和模型的优越性：3DAffordSplat显著提升了现有方法在3DGS功能理解上的表现，而AffordSplatNet在已知/未知场景下的性能均超越基线方法，其泛化能力尤为突出。

未来工作：将探索将该框架集成至具身机器人系统，以实现动态环境中的物理交互。