从以自我为中心视频中学习用于机器人操作的精确affordance

24年8月来自英国爱丁堡大学和华为诺亚实验室的论文“Learning Precise Affordances from Egocentric Videos for Robotic Manipulation”。

Affordance,即目标提供的潜在动作,对于机器人操作任务至关重要。深入了解affordance可以带来更智能的人工智能系统。例如,这种知识可以指导智体抓住一把刀的刀柄切割,而抓住其刀片传递给某人。本文提出一个精简的affordance学习系统,该系统涵盖数据收集、有效的模型训练和机器人部署。首先,自动从以自我为中心的视频中收集训练数据。与以前仅关注于目标可抓取的affordance并将其表示为粗略热图的方法不同,本文涵盖可抓取(例如,目标手柄)和功能 affordance(例如,刀片和锤头),并使用精确的分割掩码提取数据。然后,提出一个有效的模型,称为几何引导 affordance transformer (GAT),用于对收集的数据进行训练。 GAT 集成深度特征注入器 (DFI),结合 3D 形状和几何先验,增强模型对affordance的理解。为了实现面向affordance的操控,进一步引入了 Aff-Grasp,一个将 GAT 与抓取生成模型相结合的框架。为了进行全面评估,创建一个带有像素级注释的affordance 评估数据集,并为机器人实验设计真实世界的任务。

如图所示,人-目标交互中affordance的学习流程中仍然存在两个限制:(1)重点只在于人类如何抓握目标(可抓握性 affordance),而不是工具的哪一部分正在被使用(功能性 affordance)。 (2)affordance是通过概率分布来学习和表示的,这些概率分布粗糙且嘈杂,因此很难应用于现实生活中,而且容易受到干扰。

请添加图片描述

为了解决这些限制,该工作旨在从以自我为中心的视频中联合学习目标可抓取和功能的affordance,专注于生成精确的分割图而不是粗略的热图。具体来说,为了避免昂贵且耗时的手动注释,提出一种自动化流程来收集数据而无需人工劳动。给定一个以自我为中心的视频,该流程首先从手-目标交互中提取目标上的可抓取点,从工具-目标交互中提取功能点。由于目标在交互过程中经常被手或工具遮挡,用现成的手-目标检测器 [64] 来识别即将发生接触的预-接触帧。然后,通过单应性 [68] 或点对应将提取的点投影到预接触帧。最后,这些可抓取点和功能点被用作提示,并输入到 SAM [33] 中获得部件分割。从两个大型以自我为中心的视频数据集中收集训练数据:Epic-kitchens [11] 和 Ego4d [25]。

尽管数据是以无注释的方式收集的,但它对模型训练提出了重大挑战。大多数训练样本的分辨率都很低,裁剪区域通常只占原始帧的 5%。此外,运动模糊、遮挡和单应性估计等因素会使生成的训练样本模糊和嘈杂。为了解决这些问题,本文提出GAT,包括一个简单有效的DFI,用于在训练期间整合几何信息。DFI 允许模型结合 3D 几何进行预测,而不是仅仅依赖于模糊的外观。此外,当用训练源域显著不同的数据进行评估时,该模型的性能较差。为了解决这一域差距,用视觉基础模型 DINOv2 [54] 作为图像编码器,其已在来自各个域的数据上进行训练。保持 DINOv2 不变,并用LoRA [27] 进行微调,增强模型的泛化能力并防止过拟合。训练后,将 GAT 与机器人操作的一个抓取生成模型相结合,并将该框架命名为 Aff-Grasp。Aff-Grasp 可以根据不同的任务要求自适应地抓取目标,并识别目标的功能 affordance 以完成任务。数据自动采集和标注的流水线如下图所示:

请添加图片描述

为了全面展示数据收集和模型训练的有效性,从两个角度进行评估。首先,从几个现有的 affordance 数据集和互联网资源中收集和注释 721 幅图像,创建一个具有挑战性的评估数据集,以极大的多样性评估模型的性能。其次,设计一个现实世界的机器人操作评估,其中包含 7 个任务和 34 个不同的目标。如果模型做出了正确的affordance分割,机器人抓住了正确的可抓取部件,并将功能部件应用于目标物体,则该任务被视为成功。

GAT 的架构如图所示:由 DINOv2 图像编码器、深度特征注入器、嵌入器和 LoRA 层组成。该模型通过计算上采样特征与可学习或 CLIP 文本嵌入之间的余弦相似度来执行分割。

请添加图片描述

Aff-Grasp 的框架如图所示:它首先使用开放词汇检测器来定位场景中的所有目标,然后将其发送到 GAT 以确定它们是否具有任务所需的相应affordance;之后,一个 6 自由度抓握生成模型,利用目标的可抓握affordance和深度图来估计潜在的抓握姿势。最后,机器人执行affordance-特定的顺序运动原语,将功能部件应用于目标。

请添加图片描述

  • 10
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值