Octo-planner:用于规划器-动作智体的设备上语言模型

24年6月来自Nexa AI & Stanford、MIT和MIT-IBM实验室的论文“Octo-planner: On-device Language Model for Planner-Action Agents”。

AI 智体在各个领域变得越来越重要,可以实现自主决策和解决问题。为了有效运作,这些智体需要一个规划过程来确定最佳行动方案,然后执行规划的行动。本文提出一个设备上 Planner-Action 框架,将规划和行动执行分为两个组件:针对边缘设备优化的规划智体或 Octo-planner,以及使用 Octopus 模型执行功能的动作智体。

Octo-planner 首先通过将任务分解为一系列子步骤来响应用户查询,然后由 Octopus 动作智体执行这些子步骤。为了优化资源受限设备上的性能,采用模型微调而不是上下文学习,从而降低计算成本和能耗,同时缩短响应时间。该方法包括使用 GPT-4 从可用功能生成不同的规划查询和响应,然后进行后续验证以确保数据质量。

在精选数据集上微调 Phi-3 Mini 模型,在域内测试环境中实现 97% 的成功率。为了解决多域规划难题,开发了一种多 LoRA 训练方法,该方法将在不同函数子集上训练的 LoRA 权重合并在一起。这种方法可以灵活处理复杂的多域查询,同时在资源受限的设备上保持计算效率。
人工智能 (AI) 智体 [1, 2] 通过实现自主决策和提高运营效率 [3, 4, 5, 6, 7],极大地改变了各个行业。这些智体依赖于关键的规划过程,该过程涉及确定最佳行动方案、执行规划的行动以及总结结果。Gemini-Pro [8] 和 GPT-4 [9] 等大语言模型 (LLM) 已在此领域展现出潜力。虽然这些模型在以与人类表现相当的水平执行复杂规划任务时面临挑战 [10, 11],但它们在处理较简单的任务方面仍然有效,从而促进了实际应用。其中一个应用是来自 MultiOn [12]、Simular AI [13] 和 Adept AI [14] 等公司的 AI 助手工具出现,它们利用 LLM 的功能在各个领域提供智能协助。此外,面向消费者的 AI 硬件产品(例如 Rabbit R1 [15]、Humane AI Pin [16] 和 Limitless Pendant [17])将 LLM 集成到用户友好设备中,使智能辅助更加容易获得,并带来了巨大的发展空间。

AI 智体的成功取决于底层 LLM 的性能。使用预训练模型的智体,未在任务演示上进行微调,其成功率相对较低,从桌面应用程序上的 12% [18] 到移动应用程序上的 46% [19] 不等,而利用微调模型的智体在与其训练数据类似的任务上可以实现高达 80% 的成功率 [20, 21]。然而,由于高计算需求和基础设施费用,将 LLM 用于 AI 智体的成本很高,限制了其广泛采用。设备上的 AI 智体缺乏,限制了需要实时处理、离线功能或增强隐私的应用程序。

设备上 AI 智体具有诸多优势,包括延迟降低、离线操作、成本降低和数据安全性提高 [22、23、24、25]。虽然 Octopus V2 等动作模型在函数调用方面实现了超过 95% 的准确率 [26],但设备上的规划模型仍然缺失。通用智体框架使用单模型上下文学习,需要在每个提示中提供冗长的功能描述和规划指令。这种方法对于上下文长度有限的设备上模型来说,是不切实际的,会导致边缘设备的高延迟和高电池消耗。
Planner-Action 方法将规划和行动执行过程分为两个部分,从而区别于一般的智体框架。这种分离提高了模块化程度,并允许对每个组件进行专门的优化。

该框架的运作方式如下:包括规划和行动两个阶段

对于动作模型,利用 Octopus 模型,该模型专为设备上函数调用而设计。如图说明Planner-Action 框架与 LLM 智体单模型方法之间的区别。

请添加图片描述

规划数据集生成和挑选过程如下:

  1. 数据集收集:给定可用的函数 F ,用大语言模型 (GPT- 4) 来生成可由这些函数回答的各种查询。增加模型的温度设置以确保查询的多样性。然后以指定的数据集格式生成响应。重要的是,虽然函数描述在生成过程中使用,但它们不包含在最终数据集中。相反,规划器模型在训练期间内化了此函数信息。
  2. 数据验证:用相同的语言模型作为验证工具来评估查询-响应对的正确性。尽管在初始生成过程中存在一些错误,但该模型有效地将生成的内容分类为有效或无效,过滤掉不正确的输出并保持数据集质量。

如图所示规划器模型训练数据的收集过程:

请添加图片描述

评估依赖于精心构建的测试数据集。该数据集旨在表示现实世界规划的复杂性,采用集成自动生成、专家验证和经验测试的多阶段方法。
该过程从使用 GPT-4 自动生成包含 1,000 个数据点的初始数据集开始。然后,这些数据点经过严格的质量保证过程,以确保其完整性和相关性。质量评估标准如下:
• 每个步骤必须对应于现有功能;
• 步骤的顺序必须正确。

为了确保评估的可靠性,增加一个手动验证阶段。此阶段涉及选择一组示例进行端到端模型执行,从而验证结果的准确性并全面评估模型的性能。

为了评估规划模型,用 GPT-4 作为预言机来确定生成规划的正确性。这一选择基于经验观察,表明 GPT-4 在特定用例中具有很高的熟练程度。

实验重点关注四个关键领域:

  1. 全微调和 LoRA 之间的性能和效率权衡。
  2. 同时处理不同函数集的多 LoRA 精度。
  3. 各种基础模型和大小之间的性能比较。
  4. 数据集大小对精度的影响,范围从 100 到 1000 个训练示例。

用 Phi-3 Mini 和其他一些替代方案作为基础模型,对精选的数据集进行监督微调。训练包括全微调和 LoRA 技术。对于所有实验,将数据集大小设置为可用函数量的 800 倍,并在 NVIDIA A100 GPU 上执行微调。在这两种技术中使用优化的超参数:学习率为 5 × 10−6,批量大小为 4,预热率为 0.2,有 2 个epochs。对于 LoRA,将 target_modules 设置为全线性。

  • 9
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值