ICRA 2025 斯坦福大学李飞飞团队提出基于VLM的多模态人类视频中实现机器人操作学习

学习从人类视频中执行作任务是教授机器人的一种很有前途的方法。但是,许多作任务需要在任务执行期间更改控制参数,例如力,仅靠视觉数据无法捕获。在这项工作中,李飞飞教授团队利用传感设备(如测量人体肌肉活动的臂带和记录声音的麦克风)来捕捉人类作过程中的细节,并使机器人能够提取任务计划和控制参数来执行相同的任务。
为了实现这一目标,他们引入了模态链 (CoM),这是一种提示策略,使视觉语言模型能够推理多模态人类演示数据——视频与肌肉或音频信号耦合。通过逐步集成来自每种模态的信息,CoM 完善了任务计划并生成了详细的控制参数,使机器人能够根据单个多模态人类视频提示执行作任务。实验表明,与基线相比,CoM 在提取任务计划和控制参数方面的准确性提高了三倍,并推广到真实机器人实验中的新任务设置和对象。
下图通过记录视频数据来捕捉人体运动,通过 EMG 传感器记录肌肉活动,并通过麦克风记录交互声音。这些信号揭示了有关操作关键细节。该方法使 Vision Language Models 能够按顺序分析每种模态,提取力、手部动作和对象识别,以生成机器人可执行代码。在这里插入图片描述

方法:模态链Chain-of-Modality (CoM) 是一种提示策略,使 Vision Language Models 能够按顺序分析多模态人类演示数据。通过逐步检查每种模式,CoM 提取关键信息并逐步完善其理解,以生成准确的任务计划和控制参数。
在这里插入图片描述

上图说明了 Chain-of-Modality 方法。在左侧,基线“合并”方法将所有模态组合成一个 VLM 的输入。相比之下,CoM(右)按顺序分析每种模式:首先是力数据以确定何时施加力,然后是手部姿势来推断抓取和扭转动作,最后是图像来识别特定的物体和动作(例如,扭动瓶盖)。这种顺序分析使 CoM 能够生成更准确的机器人可执行 Python 程序。
示例:开瓶任务

上面的视频演示了 Chain-of-Modality 在开瓶任务中的应用。请注意该过程是如何通过分析力信号峰值(以红色显示)来识别施加力的关键时刻开始的。接下来,手部姿势分析揭示了具有特定旋转方向的抓取和扭转动作。最后,可视化分析识别瓶子和瓶盖对象。到最后,CoM 已经组装了一个完整的任务计划,其中包含可以转换为机器人代码的详细参数。实验任务评估了四种需要精确控制参数的作任务的方法:开瓶:一项双手任务,需要精确抓取和扭转。在实际评估中,使用 7 个不同的瓶子(6 个看不见的瓶子)进行了测试,并部署在两个机器人平台(双手动 ViperX 和 KUKA)上。插入插头:在作的不同阶段需要不同的力施加。为了测试泛化,将插头、电源板和盒子随机放置在不同的配置中。打鼓:需要精确控制力度和时间。用不同的鼓点进行了测试,以评估对各种节奏模式的适应性。擦拭板:测试力控制的表面交互。用不同形状和板上不同位置的标记图进行评估。在这里插入图片描述
定性结果
上图显示了 Chain-of-Modality 如何为各种作任务生成详细任务计划的定性结果。CoM 成功地将视频分割成多个子任务,指定每个阶段的技能、部队等级和目标对象。开瓶:CoM 以适当的旋转方向正确识别抓取、扭曲和释放动作的顺序。它捕获多个扭曲循环并为每个动作生成精确的控制参数。插入塞子:CoM 认识到在作过程中需要不同的力水平 - 调整塞子方向时力较小,插入阶段的力较大。Playing Drum: CoM 捕捉节奏模式和力度变化,检测每次击鼓的不同强度并正确分割运动序列。擦拭板:CoM 准确提取有效清洁所需的擦拭轨迹和压力,包括不同擦拭阶段施加的方向和力的变化。机器人演示通过模态链方法学习的任务的机器人实现。这些演示突出了机器人使用适当的力控制参数复制人类纵技能的能力。定量结果该图使用 Gemini 1.5 pro 和 GPT-4o 模型将模态链与三个作任务中的各种基线方法进行了比较。在这里插入图片描述

我们观察到,分别处理和分析每种模态的性能始终优于合并模态输入或生成单个合并答案的基线。CoM 在 Gemini 1.5 pro 和 GPT-17o 中分别优于 19-Sep 方法(将输入和输出分开但缺乏渐进式细化)超过 4%。结果证实,力信息极大地增强了对人类任务计划的理解。有力输入的方法明显优于没有力输入的方法,帮助自动立体货柜更好地将视频分割成不同的阶段。这导致提取的任务计划与地面实况之间的相似性得分平均提高了 42%。在需要精细作的任务中,如开瓶,所有模态的方法都能获得最高的成功率。手部姿势在这些任务中起着至关重要的作用,为检测细微的手指运动和旋转提供了重要帮助。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值