RoboCAS:复杂物体排列场景中机器人操作的基准

24年7月来自美团的论文“RoboCAS: A Benchmark for Robotic Manipulation in Complex Object Arrangement Scenarios”。

基础模型具有巨大的潜力,可使机器人执行长远的一般操作任务。然而,现有基准测试中任务的简单性和环境的统一性限制了它们在复杂场景中的有效部署。为了解决这一限制,本文介绍 RoboCAS 基准测试,这是一个专门为机器人操作中复杂的物体排列场景设计的基准测试。该基准测试采用灵活而简洁的脚本策略来有效地收集各种各样的演示,在高度逼真的物理模拟环境中,展示分散、有序和堆叠的物体排列。它包括目标检索、障碍物清除和机器人操作等复杂过程,测试智体执行空间推理的长远规划和预测模糊指令下连锁反应的能力。对多个基线模型的大量实验揭示它们在管理复杂物体排列场景方面的局限性,强调在实际部署中迫切需要能够执行长远操作的智能智体。

在人工智能领域,具身人工智能[1, 2, 3]正日益成为研究的焦点。其核心目标是开发能够深入理解环境、做出精确决策并执行复杂物理操作的智能系统。为了实现这种高水平的智能,研究人员采用了模仿学习[4, 5, 6]和强化学习[1, 7, 8, 9]等先进方法,这些方法已在多个实验和应用中被证明是有效的。然而,这些技术的成功实施在很大程度上依赖于大量高质量的训练数据,而这些数据通常很难获得。

近期具身人工智能的研究兴趣集中在人类语言条件下完成长期任务 [17, 14, 18, 19, 20, 21, 12, 22, 23],通常通过行为克隆或强化学习的方法,在当前环境观察和语言指令的条件下生成机器人动作策略。然而,大多数模型都是在比现实世界中容易得多的任务上训练的,很难应用于现实生活或商业场景,因为这些场景在环境变化和物体关系方面都比训练数据集复杂得多。一类方法 [24, 25, 26] 尝试利用更容易获得的视频或语言数据对状态token化器进行预训练,然后用少量机器人数据对整个模型进行微调,以降低学习机器人任务的难度,但由于缺乏机器人动作和物体反应之间的关系,在遮挡目标物体的情况下仍然表现不佳。另一组方法 [27, 2, 28, 29] 涉及使用大语言模型 (LLM) 将长范围任务分解为更简单的基本任务。然而,这些方法仍然

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值