Google和普林斯顿大学联合发表CoRL论文:寻求帮助的机器人-大型语言模型规划者的不确定性对齐

文章介绍了一种名为KnowNo 的框架,用于测量和对齐基于大型语言模型(LLM)的规划器的不确定性,这样他们就知道什么时候它们不知道,并在需要的时候寻求帮助。Know now No 建立在适形预测理论的基础上,为任务完成提供统计保证,同时在复杂的多步骤规划设置中最大限度地减少人工帮助。通过各种模拟和真实机器人设置的实验,涉及不同模糊模式的任务(例如,从空间到数字的不确定性,从人类偏好到Winograd 模式)表明,KNOWNO在提高效率和自主性方面优于现代基线(可能涉及集成或广泛的提示调整),同时提供正式保证。KnowNo 可以与llm 一起使用,无需模型微调,并且提出了一种有前途的轻量级方法来建模不确定性,可以补充和扩展基础模型的不断增长的能力。

相关成果以“Robots That Ask For Help: Uncertainty Alignment for Large Language Model Robots Planners”为题发表于Conference on Robot Learning (CoRL) 2023 中。

当前 LLM LLM 的主要挑战之一是其倾向于幻想,即自信地生成看似合理但实际上是错误且与现实脱节的输出。这种对不正确输出的错误信心给基于 LLM LLM 的机器人规划带来了重大挑战。此外,在现实世界环境中,自然语言指令通常包含固有或人为的高程度模糊性,盲目遵循一个错误构建的计划可能会导致不希望的甚至危险的动作。

系统的优化方向:

(1) 校准信心:机器人应该寻求足够的帮助以确保用户指定的统计上保证的任务成功水平。

(2) 最小化帮助:机器人应该通过缩小任务中可能存在的歧义来最小化它所寻求的帮助总量。

论文的主要贡献:文章提出了(KnowNo),这是一个基于共型预测理论(conformal Prediction ,CP )的框架,用于对基于语言模型的规划器的不确定性进行建模。

(1) 给定一个语言指令,使用预训练的语言模型生成一组可能的动作,让机器人执行下一个动作。文章展示了如何使用CP 从这些选项中选择一个子集,使机器人能够决定要采取的行动(如果该子集为单例),或者在其他情况下寻求帮助。

(2) 文章在单步和多步规划问题上证明了校准置信度的理论保证:当用户指定一个置信度水平为1−ε 时,机器人以1−ε 的正确率执行任务,并在需要时请求帮助。CP 还最小化了预测集合的平均大小,从而实现了最小化帮助的目标。

(3) 在模拟和硬件环境中评估了KnowNo,针对各种潜在歧义类型(例如基于空间位置、数值、对象属性和Winograd图示)的任务指导性操作任务。跨多个设置和实施例的实验验证了KnowNo 提供统计上保证的任务成功水平的能力,同时与基线方法相比,将所需的帮助量减少了10 −24%。
在这里插入图片描述

论文方法:

本文提出的机器人求助系统利用了预训练的语言模型(LLM)来规划机器人的行动,并通过多项选择问答(MCQA )将问题转化为单个预测任务,以消除长度偏差并提高准确性。

同时,该系统使用符合预测(CP )框架来估计LLM LLM 的不确定性,并在需要时请求人类帮助。该系统的四个部分包括:

(1) 生成多个备选计划;

(2) 使用CP 选择备选计划子集;

(3) 如果预测集合不是单元素,则寻求人类帮助;

(4) 低级控制将选定的计划转换为动作。

该系统的目标是实现不确定性的对齐,即在最小化人类帮助的同时,成功地完成任务。

方法改进:

与传统的基于规则或逻辑的规划方法相比,该系统具有更高的灵活性和适应性,因为它可以处理自然语言指令并自动学习最佳行动计划。此外,通过使用MCQA和CP 技术,该系统能够更准确地评估LLM的不确定性,并在需要时请求人类帮助,从而提高了系统的可靠性和安全性。

解决的问题:

该系统解决了传统机器人规划系统中的一些问题,如无法处理自然语言指令、缺乏灵活性和自适应性以及难以评估不确定性等。通过结合预训练的语言模型和多项选择问答技术,该系统能够在各种场景下有效地规划机器人的行动,并根据需要请求人类帮助,从而提高了机器人的可靠性和安全性。
在这里插入图片描述

论文实验:

论文介绍了KNOWNO框架在多个语言指导任务和环境中的实验结果,并与其他方法进行了比较。实验包括以下四个部分:(1)模拟仿真:在PyBullet模拟器中,机器人臂需要将不同颜色的碗和块移动到指定位置。作者引入了三种类型的模糊指令(属性、数值和空间),并针对每种设置构建了一个分布。该实验使用了单步设置,即每个步骤只有一种可接受选项。(2)硬件实验一:在一个玩具食品排序任务中,一个UR5 机器人臂需要将几种不同的食物物品按照人类偏好进行分类。在这个多步设置中,机器人需要根据先前的动作选择下一步操作。(3)硬件实验二:在一个厨房环境中,机器人需要从柜台上的对象中挑选出一些物品,并将其放入抽屉或将它们丢弃到回收箱、堆肥箱或垃圾箱中。这个任务是一个单步设置,但是有多种可接受的操作。(4)硬件实验三:在另一个硬件实验中,机器人需要在具有有限可达性的双臂物体重新排列任务中执行任务。
在这里插入图片描述

对于这些实验,作者比较了KNOWNO与四种其他方法:Simple Set 、Ensemble Set 、Prompt Set 和Binary 。其中Simple Set和Ensemble Set是基于概率阈值的方法,Prompt Set 和Binary 是基于直接输出预测集或二进制指示器的方法。作者还对KNOWNO进行了两种额外的评估:使用不同的LLM 模型和目标成功率保证的鲁棒性测试。

总的来说,KNOWNO 在所有实验中都表现出较高的任务成功率和较低的人类干预率。特别是在模糊指令较多的情况下,KNOWNO能够显著减少人类干预次数。此外,KNOWNO的目标成功率保证机制使其不受特定LLM的影响,因此可以在不同的LLM 上实现一致的结果。

在这里插入图片描述

总结与展望

该论文提出了一种新的框架KnowNo,用于解决机器人在执行自然语言指令时面临的不确定性问题。KnowNo 利用了理论上的概率保证来确保机器人能够正确地完成任务,并且最小化人类帮助的需求。作者通过实验验证了KnowNo 的有效性和实用性,并且为未来的相关研究提供了有价值的参考。

KnowNo 的主要贡献在于将理论上的概率保证与机器人的实际操作相结合,以确保机器人能够在不确定的情况下正确地执行任务。KnowNo 使用了理论上的“可信度预测”技术,通过筛选出最可能的动作选项来减少需要人类干预的情况。这种方法不仅提高了机器人的自主性,还降低了人工干预的成本,使得机器人更加可靠和安全。

尽管KNOWNO已经取得了显著的进展,但仍有一些局限性和未来的研究方向。例如,KNOWNO目前只考虑了环境中的物体是完全基于文本输入到LLM中,而且动作建议可以成功执行的情况。因此,在未来的工作中,需要进一步考虑感知模块(如视觉语言模型)和低级动作策略(如语言条件化的可行性预测)的不确定性,并将其纳入到CP 校准中。此外,还需要探索如何结合主动偏好学习等其他方法,以最大化降低人类偏好的不确定性。最后,还需要进一步优化CP 的指标,以实现更有效的用户帮助率。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值