三大优势和三大挑战
三维功能推理是具身智能体理解如何与环境中的物体进行交互的基础能力。通过识别三维物体支持特定操作的功能区域(例如可抓握、可拉动或可旋转的部位),机器人能够根据人类指令执行精确的操控任务。这项能力弥合了感知与行动之间的鸿沟,使得从家庭辅助到工业自动化等各类场景中的人机协作更加自然流畅。
现有功能推理方法主要基于图像、视频和点云表示,但这些方法均存在显著局限。基于图像的方法仅依赖二维投影,缺乏深度信息,难以完整捕捉物体的三维结构。视频虽能提供动态视觉线索,但无法直接表达三维空间信息,且标注困难,对交互过程中细微动态变化的表征能力有限。点云数据虽能直接呈现三维几何信息,但其离散特性导致表面连续性差,如图2所示,稀疏性和有限的几何分辨率使其难以精确表征复杂结构。这种离散采样的本质缺陷,使得点云数据无法完整表达连续表面和精细几何特征,而这恰恰是智能体进行精确推理的关键要素。
三维高斯泼溅(3DGS)技术的最新进展提供了突破性解决方案。该技术通过可学习参数的高斯基元对场景进行建模,兼具高保真场景重建和实时渲染能力。3DGS相较传统三维功能推理方法具有三大优势:
- 更高的几何精度和表面细节保留能力,解决了点云数据的离散性和不完整性问题
- 融合丰富的色彩信息,弥补了图像方法缺乏三维空间信息的缺陷
- 低计算需求的实时渲染性能(1080p分辨率下30+帧/秒),克服了视频方法在动态信息捕获和资源效率方面的局限。
这些特性使3DGS特别适用于对实时性和资源效率要求严苛的具身智能应用场景。
尽管优势显著,3DGS在功能推理领域的应用仍面临三大挑战:缺乏带功能标注的大规模3DGS数据集,制约模型训练与评估;现有模型专为点云或图像等离散数据设计,无法充分利用3DGS的连续特性,导致精度和效率潜力难以释放;点云与3DGS间的模态差异使得知识迁移困难——点云的稀疏噪声特性与3DGS的精细连续表征存在本质冲突,需要专门技术确保几何与语义一致性。更关键的是,传统3DGS语义嵌入方法存在根本性局限:为每个高斯基元静态分配单一语义特征的参数扩展技术,难以应对多属性功能场景的需求。在现实应用中,单个高斯基元往往需要同时参与多种功能上下文,这种单一语义限制严重制约了实际应用价值。
为解决这些挑战,本文介绍了3DAffordSplat[1]——首个带全面功能标注的大规模多模态3DGS功能推理数据集。如图1所示,该数据集包含三维高斯、点云和文本指令三种对齐模态,支持跨模态学习与知识迁移。数据集涵盖多样化的物体与场景,为功能推理模型的开发与评估提供了坚实基础。
基于该数据集,我们建立了首个3DGS功能推理的完整评估框架。基准测试沿用功能分析研究的经典指标(mIoU、AUC、SIM和MAE),在支持跨模态性能对比的同时,保持与现有点云基准的兼容性。该框架为不同方法提供公平比较平台,推动该领域研究发展。
我们进一步提出AffordSplatNet模型,这是首个可泛化的3DGS功能推理架构,通过建立稀疏点云与密集高斯表示间的跨模态结构对应关系实现知识迁移。模型创新的跨模态结构对齐模块利用结构一致性先验,有效对齐两种表征模态。这种互补表征间的精准对齐与知识迁移,不仅提升了功能推理精度,更增强了模型对几何变化和局部观测的鲁棒性。
核心贡献:
- 发布首个带全面功能标注的大规模多模态3DGS数据集3DAffordSplat,包含高斯、点云和文本指令三种模态;
- 提出新型3DGS功能推理模型AffordSplatNet,通过点云与高斯表示间的知识迁移提升精度与鲁棒性;
- 大量实验证实3DAffordSplat能有效增强现有点云方法在3DGS功能推理中的表现,AffordSplatNet在已知/未知场景下均超越现有方法,验证了其卓越的泛化能力。
3DAffordSplat 数据集
为支持本研究任务,我们提出了首个具有功能标注的大规模多模态3D高斯泼溅数据集3DAffordSplat,填补了3DGS功能推理领域的关键空白。与现有受限于稀疏几何采样和坐标敏感性的点云数据集不同,我们的数据集利用3D高斯泼溅的固有优势:23,677个高斯实例的高保真连续表面表示保留了细粒度功能细节,同时与8,354个点云的跨模态对齐实现了鲁棒的几何推理。如表1所示,3DAffordSplat独特地提供了6,631个人工标注的功能标签(覆盖21个类别和18种交互类型),每个物体-功能组合配有15组语言引导的问答模板。
数据收集
我们的3DAffordSplat包含三种模态:带标注的3DGS、带标注的点云和语言指令。
3D高斯数据
3DGS物体来源于ShapeSplat,涵盖21个类别。这些高斯数据与对应点云结合形成3DAffordSplat。我们按照3D AffordanceNet的标准对部分高斯数据进行了人工功能标注。
点云与指令
我们的数据集基于提供的点云和文本数据,筛选了21个物体类别和18种功能类型。每个物体类别关联多个功能,每个物体-功能组合配有对应的文本问答对。为更好适配任务,我们在指令数据中引入了新型答案格式:在每个句子表示功能的单词后立即插入特殊标记"",从而增强模型识别和定位功能语义的能力。
统计与设置
3DAffordSplat包含三种模态:文本描述、3D高斯和点云。详细统计信息见表1。具体而言,数据集包含8,354个点云物体(覆盖21个类别和18种功能类型),每个物体-功能组合配有15个问题和3个答案。基于不同组合,我们收集了大量高斯数据(总计23,677个高斯实例),其中为每个组合人工标注18个高斯实例用于验证和测试,共计6,631个高斯功能标注。我们提供两种数据集配置:
- 已知场景(Seen):默认配置,训练和测试阶段共享相似的物体类别和功能类型分布。
- 未知场景(Unseen):专门评估模型知识泛化能力,测试集包含与训练集完全不同的物体-功能组合。
预训练与评估协议
在预训练过程中,每个高斯实例随机分配同类别多个点云和从15个模板问题中采样的一个问题,以及固定答案作为文本标签。评估时,我们使用标注的高斯数据确保评估准确性,并通过固定问题集测试模型泛化能力。
评估指标
我们采用先前功能研究工作的指标:
- 平均交并比(mIoU)
- 曲线下面积(AUC)
- 相似度(SIM)
- 平均绝对误差(MAE)
这些指标支持跨模态性能比较,同时保持与现有点云基准的向后兼容性。该框架实现了不同方法间的公平比较,并为该领域研究提供了新方向。
AffordSplatNet
任务定义
给定一个三维高斯泼溅(3DGS)表示 ,其中 表示高斯中心位置, 表示尺度参数, 表示旋转参数(统称为结构特征),以及不透明度 和基于球谐函数的颜色特征 (统称为外观特征)。我们假设物体的功能属性主要来源于局部结构特征,因此模型仅处理结构特征 。对于给定的文本查询 ,模型输出文本响应 和对应的三维高斯功能掩码 ,其中 表示高斯数量。
初步处理
对于第 批次的 个三维高斯对象 (每个对象的高斯数量为 ),我们采用自适应批处理策略:
- 降采样:将高斯数量降至批次中的最小值 ,以保持结构完整性并支持批训练。
- 零填充:将高斯数量填充至批次中的最大值 ,以生成完整掩码。
为了利用跨模态对齐,每个高斯实例 与 个相同功能类型的点云 配对,其中 表示点云密度。训练集 包含元组 。
架构概述
如图3所示,AffordSplatNet 的框架如下:
-
三维高斯编码:使用 PointNet++ 作为三维骨干网络,将高斯结构特征编码为多粒度特征 ,其中 表示第 层编码后的高斯数量, 为特征维度。
-
文本查询处理:预训练语言模型(如 RoBERTa)提取文本查询 中的 标记的最后一层嵌入特征 ,并通过 MLP 投影为 ,同时生成文本响应 。
-
多模态融合:通过跨注意力和通道注意力机制,将语言特征 与多粒度几何特征 在空间和通道维度融合:
-
- 空间融合:
- 通道融合:
-
粒度自适应选择:通过可学习门控权重 动态加权多粒度特征,生成融合特征 。
-
解码与掩码生成:使用逆距离加权(IDW)插值将特征上采样至原始高斯密度,并通过动态卷积核生成最终功能掩码 。
跨模态结构对齐
在预训练阶段,我们提出基于结构一致性先验的跨模态对齐模块(CMSA),将点云功能区域与高斯功能区域映射到共享的 维空间:
- 特征编码:
• 高斯功能区域特征:
• 点云功能区域特征: - 结构相似性计算:通过 Chamfer 距离 和温度参数 加权损失:
训练目标
- 预训练阶段:最小化跨模态一致性损失 。
- 微调阶段:联合优化功能掩码预测和文本生成:其中 和 分别处理类别不平衡和分割精度, 为文本生成交叉熵损失。
实验效果
总结一下
3DAffordSplat是首个专为3DGS设计的大规模多模态功能数据集,通过丰富的物体类别和功能类型标注填补了该领域空白。基于此构建的AffordSplatNet模型创新性地采用跨模态结构对齐模块,有效弥合了点云与高斯表示之间的鸿沟,实现了更精准鲁棒的功能推理。大量实验验证了数据集和模型的优越性:3DAffordSplat显著提升了现有方法在3DGS功能理解上的表现,而AffordSplatNet在已知/未知场景下的性能均超越基线方法,其泛化能力尤为突出。
未来工作:将探索将该框架集成至具身机器人系统,以实现动态环境中的物理交互。
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈