DeepMind最新研究:通过语言模型预测控制加速从人类反馈中学习

人工智能咨询培训老师叶梓 转载标明出处

大模型(LLMs)已经展现出从语言指令中编写机器人代码的能力,然而,这些能力受限于短期互动,用户的反馈只有在LLM的上下文大小范围内才有效,并且在长期互动中可能会被遗忘。本文的研究的目标是通过微调LLMs来提高它们的可教性,即它们如何有效地适应人类输入。来自Google DeepMind团队的研究者们提出了一种新框架LMPC,它通过微调PaLM 2模型,显著提高了非专家教授未见任务的成功率,并减少了用户纠正的平均数量。

方法

研究者们提出的解决方案是通过减少机器人完成任务前所需的人类输入次数来提高LLMs的可教性。这不仅涉及到提高机器人对指令的直接响应能力,而且还涉及到一种更深层次的学习能力——即元学习(meta-learning),它关注的是如何从人类的反馈中快速学习并适应新任务。

为了实现快速适应,研究者们采用了上下文学习的方法。在这种方法中,LLMs被用来生成奖励代码,这些代码能够驱动机器人展现出期望的行为。上下文学习的过程是高度交互的,它依赖于用户对机器人行为的观察和随后提供的反馈。

上下文学习通过使用提示(prompts)来实现,这些提示为模型提供了执行任务所需的背景信息。这些提示包括了机器人的物理特性描述、可用的机器人API,以及之前用户与模型之间的对话示例。通过这种方式,模型能够在后续的交互中利用这些信息来生成合适的响应。

然而,由于LLMs的上下文大小有限,如果交互过程中的指令数量超过了这个限制,那么模型可能就会遗忘之前的指令。这就需要一种机制来确保即使在多步互动中,LLMs也能够记住并利用之前的用户反馈来改进其行为。

为了解决这个问题,研究者们提出了Language Model Predictive Control (LMPC)框架,它结合了上下文学习和模型预测控制(Model Predictive Control, MPC)的技术,以提高LLMs在长期互动中的性能。这个框架的核心在于将上下文学习和模型预测控制(MPC)技术相结合,从而让LLMs在面对新任务时能够快速适应,并且在一系列交互中累积知识,实现更有效的学习和适应。

使用大型语言模型(LLMs)编写机器人代码的机会,以及如何通过上下文学习进行快速适应
图片​​​​​​左边展示了非专家使用语言指导机器人行为的场景,右边展示了通过微调LLMs来加速适应和提高可教性的场景

图 1展示了代码编写大型语言模型(LLMs)如何为非专家提供教授机器人新任务的机会,通过上下文学习实现快速适应(左侧)。在这项工作中,研究者们进一步微调了这些基础LLMs,以加速快速适应并提高它们的可教性(右侧)。结果表明,该框架(中间*)能够识别表现最好的用户(紫色),并利用他们的交互(仅覆盖14%的任务)来推动所有用户(蓝色)的LLM性能提升——以教学成功率、对用户反馈的响应性以及用户更正的次数来衡量。实验表明,这些改进可以推广到新的机器人体现和API。

为了解决上下文学习局限性LMPC框架引入了模型预测控制(MPC)技术。MPC是一种控制策略,它通过模拟未来的行为和结果来优化当前的决策。在LMPC中,MPC被用来指导LLM生成的代码,以实现更精确和有效的机器人控制。这种方法使得LLMs不仅能够快速适应新任务,而且还能够在一系列交互中累积和利用知识。

聊天界面和模拟可视化,用户可以通过这个界面使用自然语言教授机器人新的行为。图表显示了成功会话与失败会话的统计数据,以及任务成功率与聊天轮数和用户反馈评级的相关性

在LMPC框架中,研究者们训练LLM来预测和模拟与人类互动的未来轨迹。这涉及到将人机交互视为一个部分可观测的马尔可夫决策过程(POMDP),其中人类的自然语言输入作为观察结果,而机器人代码输出则作为动作。通过这种方式,LLMs可以学习如何在给定的上下文中,根据观察到的用户反馈来生成最佳的机器人代码。

在推理阶段,LMPC使用MPC作为一种序列级解码策略。它通过生成多个可能的未来情景(rollouts),来搜索最佳的行动方案,并在每个决策点上重复这个过程。这种方法允许模型在每个聊天回合中进行探索,选择那些最有可能带来成功的行动。

在上下文学习中的快速适应性允许语言模型(LLMs)即时响应用户的指令和反馈,通过保持上下文信息来生成机器人代码。然而,这种即时适应性虽然在短期内有效,但在长期互动中可能会遇到限制,因为模型的上下文窗口大小有限。为了克服这些限制并实现更持久的学习效果,研究者们引入了慢速适应性的概念,这涉及到模型微调的过程。

慢速适应性的核心在于利用从快速适应阶段收集的交互数据。这些数据捕捉了用户如何通过语言与机器人互动,以及机器人如何响应这些指令。通过对这些数据进行分析,研究者们可以识别出模型在响应人类反馈时的模式和潜在的改进空间。

微调过程本身是通过语言模型预测控制(LMPC)框架来实现的。LMPC将人机交互视为一个部分可观测的马尔可夫决策过程(POMDP),其中用户的自然语言输入作为观察结果,而机器人代码输出则作为动作。在这个框架下,LLM被训练来预测和模拟与人类互动的未来轨迹,这些轨迹是基于之前的交互数据来生成的。

在推理阶段,LMPC利用模型预测控制(MPC)技术作为一种序列级解码策略。MPC通过生成多个可能的未来情景(rollouts),来搜索最佳的行动方案。这种方法允许模型在每个决策点上进行探索,选择那些最有可能带来成功的行动。这种搜索过程在每个聊天回合中重复进行,使得模型能够不断优化其响应策略。

微调的效果是显著的。它不仅提高了模型在训练任务上的性能,而且更重要的是,它显著提高了模型在未见任务和新的机器人体现上的泛化能力。这意味着经过微调的模型能够更好地将从快速适应阶段学到的知识应用到新情境中,即使这些情境在训练时并未直接遇到过。

微调过程还带来了一个额外的好处:通过专注于表现最好的用户(即“顶级用户”)的数据,模型能够学习到更有效的响应策略。这种“顶级用户条件化”的方法使得模型能够模仿那些在教学任务中表现出色的用户的行为,从而提高了所有用户的教学成功率。

研究者还提出了一种特殊的训练方法,即用户条件化。它使模型能够通过识别和模仿表现最好的用户来提高其响应性和教学成功率。这种方法的核心在于让模型学习顶级用户的交互风格,从而更好地理解和预测不同用户的行为和偏好。通过这种方式,模型能够提供更加个性化和高效的交互体验。

首先模型需要识别出那些在与LLM交互中表现出色的用户,也就是顶级用户。这通常通过分析用户反馈、任务成功率和交互效率等指标来实现。一旦这些用户被识别出来,模型会进一步分析他们的交互风格,包括他们如何提供反馈、描述任务以及使用语言来指导机器人。

接下来模型会模仿这些顶级用户的交互风格。这可能涉及到调整模型的语言生成策略,使其更接近于顶级用户的语言习惯。通过模仿这些风格,模型能够更有效地响应用户的需求,提高教学的成功率。

用户条件化还允许模型根据不同用户的行为和偏好进行个性化调整。模型可以为不同的用户提供定制化的交互体验,从而提高整体的交互质量。通过这种方式,模型不仅能够提高与特定用户的交互质量,还能够提高与所有用户的交互质量。

用户条件化是一个持续的过程。随着模型不断地与用户交互,它可以继续学习和适应,以保持其交互策略的有效性。这种方法在提高LLMs在长期交互中的性能方面具有很大的潜力,尤其是在面对新任务和不断变化的用户需求时。

实验

实验部分评估了提出的微调策略(慢速适应)如何改进在线上下文学习(快速适应)的性能,以便通过自然语言反馈进行人类与机器人的交互教学。研究者们在模拟环境中对5种不同的机器人体现进行了78项任务的评估,并在真实硬件上进行了2项任务的评估。

数据收集是整个研究过程中的关键步骤。研究者们与非专家用户合作,这些用户通过一个基于浏览器的聊天界面与机器人进行互动。在这个界面中,用户可以输入文本指令,而LLM则根据这些指令生成可执行的代码。用户随后可以在模拟器中运行这些代码,观察机器人的行为,并根据机器人的表现提供反馈。这个过程允许用户通过多轮对话来逐步调整和完善机器人的行为。

为了评估模型的性能,研究者们设计了一套评估协议。这个协议包括了对用户反馈的收集,用户可以对机器人的每个响应进行“好”或“坏”的评价。此外,用户还可以在聊天会话结束时,根据机器人是否成功完成了任务,将整个会话标记为“成功”或“失败”。这些评价为研究者们提供了关于模型可教性的直接反馈。

研究者们还特别关注了用户在失败会话中的行为,例如用户在多少次尝试后放弃教学。通过分析这些数据,研究者们可以更好地理解模型在哪些方面存在不足,并探索如何改进模型以提高用户的参与度和成功率。

研究者们选择了五种不同的机器人体现来进行实验,这些体现覆盖了从单臂操作到双手协调任务,再到需要高度灵活性和移动性的任务。每种体现都有其独特的特点和能力,这为研究提供了丰富的多样性。

例如,机器人狗体现是一个小型四足机器人,它可以执行从静止姿势到动态运动的各种任务。移动机械手体现则配备了一个七自由度的手臂和平行夹爪,用于执行桌面上的物体操作任务。Aloha体现是一个双手臂机器人,配备了两个六自由度的手臂和夹爪,用于执行需要双手协调的任务。

为了测试这些机器人体现,研究者们设计了一系列任务。这些任务从简单的物体抓取和放置,到更复杂的物体转移和排列,都旨在挑战和评估LLMs在不同情境下的可教性。每种体现都有一组特定的训练任务和测试任务,这允许研究者们评估模型在已知和未知任务上的表现。

为了全面评估提出的方法的有效性,研究者们将基于上下文学习和慢速适应性改进的模型与几种不同的基线方法进行了比较。这些方法包括:

  1. 基础模型(Base Model):这是未经任何微调的原始大型语言模型,作为性能比较的起点。
  2. 检索增强生成(Retrieval-Augmented Generation, RAG):这种方法使用预训练的嵌入模型来检索与当前任务相关的示例,并将这些示例作为上下文信息输入LLM,以改善其性能。
  3. 语言模型预测控制(Language Model Predictive Control, LMPC):这是研究者们提出的主要方法,包括两个变体:
    • LMPC-Rollouts:这个变体训练LLM来预测整个聊天会话的剩余部分,并在推理时使用MPC来搜索最佳的动作序列。
    • LMPC-Skip:与LMPC-Rollouts不同,这个变体训练LLM直接预测聊天会话的最后一个动作,跳过中间的预测步骤。
两种LMPC变体的训练和推理过程:LMPC-Rollouts和LMPC-Skip。LMPC-Rollouts训练LLM预测整个聊天会话的剩余部分,而LMPC-Skip直接预测最终动作
基础模型和微调模型在所有机器人化身上的可教性结果。图中的曲线表示在小于或等于特定数量的聊天轮数下,会话成功的比例

这些方法的比较旨在揭示不同技术在提高LLMs可教性方面的潜力和局限性。

实验结果显示了不同方法在机器人教学任务中的表现。研究者们收集了大量非专家用户与机器人互动的数据,并使用这些数据来评估和比较上述方法。

  1. 任务成功率:研究者们首先观察了不同方法在完成任务方面的成功率。结果显示,经过微调的LMPC模型在未见任务上的成功率比基础模型和其他基线方法有显著提高。
  2. 聊天回合数:研究者们还记录了成功完成任务所需的平均聊天回合数。微调后的模型,特别是LMPC-Rollouts,在减少所需聊天回合数方面表现出色,这表明它们能够更快地适应用户指令。
  3. 用户反馈的响应性:通过分析用户对机器人行为的评价,研究者们发现微调后的模型在响应用户反馈方面更为有效,能够更快地生成满足用户需求的机器人行为。
  4. 跨体现泛化能力:研究者们还评估了模型在不同机器人体现上的泛化能力。结果表明,LMPC模型不仅在训练过的体现上表现良好,也能够适应新的机器人体现和API。
基础模型和微调模型在所有模型评估中的定量比较,包括成功率、聊天轮数、好评率等

研究者们还探讨了“顶级用户条件化”对模型性能的影响,发现通过模仿这些用户的教学风格,模型能够进一步提高其在所有任务上的表现。

在没有顶级用户条件的两种变体LMPC-Rollouts和LMPC-Skip的训练结果

实验结果表明,通过上下文学习和慢速适应性改进的LLMs在提高机器人任务的可教性方面具有显著优势。这些发现为未来的研究和实际应用提供了有价值的见解,并显示出了LLMs在人机交互领域的潜力。尽管LLMs在可教性方面取得了显著进步,但它们在处理更复杂的长期互动、理解更深层次的人类意图以及适应更广泛环境变化方面仍面临挑战。另外计算资源的高需求和模型泛化能力的进一步提升也是未来研究需要解决的问题。

论文链接:https://arxiv.org/abs/2402.11450

  • 16
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值