MetaLLM:包装 LLM 的高性能且成本高效动态框架

172 篇文章 0 订阅
167 篇文章 1 订阅

24年7月来自越南大学、亚马逊公司和美国Delaware大学的论文“MetaLLM: A High-performant and Cost-efficient Dynamic Framework for Wrapping LLMs”。

机器学习 (ML) 的快速发展催生了许多在各种任务和领域中表现出色的大语言模型 (LLM)。这些 LLM 在计算或定价方面具有不同的能力和成本。由于每个查询的需求可能有所不同(例如,由于查询域或其复杂性),因此在应用程序中默认使用一个 LLM 通常不是最佳选择,无论它是最大的、最昂贵的,还是平均测试性能最好的。因此,为应用程序选择既准确又成本高效的正确 LLM 仍然是一个挑战。

MetaLLM框架,可以动态、智能地将每个查询路由到最佳 LLM(在几个可用的 LLM 中)以执行分类任务,从而显著提高准确性和成本效益。通过将选择问题定义为老虎机,MetaLLM 在不确定的情况下平衡了预测准确性和成本效率。实验在流行的 LLM 平台上进行,例如 OpenAI 的 GPT 模型、亚马逊的 Titan、Anthropic 的 Claude 和 Meta 的 LLaMa,展示了 MetaLLM 在现实场景中的有效性。

大语言模型在各种任务和领域都表现出非凡的零样本能力,例如文本分类、摘要、问答和聊天机器人 [22, 1, 25, 32, 21, 29]。最近的研究 [13, 5, 10] 建议彻底扩展模型大小和训练数据大小,以提高语言模型的性能并激发其涌现能力;例如,拥有超过 1.74 万亿参数的 GPT-4 在多项任务中取得了优异的表现,但也带来了高昂的经济成本。虽然这种扩展语言模型的趋势将在未来继续,但最近的模型在任务或(子)领域专业化和计算成本方面也日益多样化。因此,对于模型用户来说,确定哪种 LLM 最适合他们的应用已经成为一项艰巨的任务。当考虑到成本限制(计算资源或 API 服务定价)时,这项任务变得更加复杂。

微调是提高 LLM 执行特定任务性能的标准选项。混合专家 (MoE) [8, 26, 7, 28] 在大型模型中训练路由算子以提高其性能;本质上,MoE 将模型视为“专家”(模块)的集合,并学习将输入路由给最佳专家。这些方法需要训练 LLM,这对许多用户来说具有挑战性,而它们的单个 LLM 增强功能通常特定于模型和场景。像思维链 [32, 31, 34] 或思维树 [33] 这样的提示推理可以在不进行额外训练的情况下提高 LLM 性能。然而,MoE 和基于提示的推理都无法从大量可用的 LLM 中受益,其中一些 LLM 的使用成本可能要低得多。

由于其架构和数据集,LLM 已被证明具有多种功能 [12, 30]。Jiang [12] 观察到,在 5000 多条指令中,每个查询的最佳 LLM 差异很大,并且无论其大小如何,都没有单一的最佳模型。因此,他们建议使用集成来结合多个 LLM 的优势以获得更好的性能。FrugalML [2, 3] 按顺序查询级联多个机器学习模型,直到获得具有高置信度分数的响应。受 FrugalML 的启发,Chen [4] 通过应用多种技术(包括提示工程、缓存和级联)来充分利用 LLM 的潜力,以获得更高质量的答案。

与以前结合多种模型优势的方法不同,有些方法尝试针对每个任务查询单个 LLM。Hari & Thomson [9] 建议训练一个语言模型来预测 LLM 的性能并路由到性能最高的模型,但这也考虑到了路由器的高成本。Šakota [24] 将成本-性能权衡公式化为整数线性规划 (ILP) 问题,并使用现有的 ILP 求解器为每个输入查询分配合适的 LLM。Lu [17] 提炼了现成的奖励模型偏好,以选择实现最佳性能的 LLM,而忽略其成本。Ding [6] 训练一个路由器,将简单查询映射到小模型,将困难查询映射到大模型;然而,他们的框架只适用于有两个 LLM 的情况。最近,Hu [11] 提出了一个基准,通过路由模型在下游任务上的成本和性能来评估它们。

最近,许多公司已经将其 LLM 模型商业化,以便客户无需大量技术知识即可将 LLM 应用甚至微调到自己的用例中。2023 年,OpenAI 发布了许多语言模型,例如 text-ada-001、text-babbage-001、text-curie-001 和 text-davinci-0024,价格和功能各不相同。他们的用户可以将这些模型用作聊天机器人,提取文本嵌入,甚至要求他们编写代码。最近,亚马逊还推出了他们的 Bedrock API,允许访问几个基础生成模型,包括文本生成、图像生成和多模态模型。Bedrock 提供亚马逊的 Titan 模型以及其他公司的模型,例如 Anthropic、Cohere、Meta、Mistral 和 Stability。

提出的MetaLLM ,其目标是学习一个路由函数 f : X → K,将查询 x 调度到适当的 LLM,以较低的成本获得良好的响应。例如,给定一个 LLM 子集 K′ ⊆ K,它可以为 x 提供良好的响应,MetaLLM 的目标是返回 arg min l∈K′ cl。实际上,用户希望能够根据其应用程序的需求平衡性能和使用成本。更具体地说,给定预算 b,用户希望在查询 API 时花费少于 b 的资金,同时最大化性能。

请添加图片描述

其矩阵形式如下:

请添加图片描述

其对偶问题格式化如下:

请添加图片描述

Chen [3] 研究了模型级联的类似公式,并建议求解上述对偶形式 (3)。在有一个精确的准确度矩阵 A 情况下,可以优化 (2) 来找到最优的 S,并选择合适的 API j,使得 Si,j = 1。

在部署应用程序时,在测试样本发送至此 LLM 之前,不知道 LLM API 在测试样本上的准确率。先前的研究 [3、2] 学习了一个模型来预测每个 API 的性能。这些方法级联多个机器学习模型并迭代查询它们,直到响应具有很高的置信度;因此,它们非常昂贵,尤其是在有大量查询的情况下。

这项工作从不同的角度来解决这个问题。不是训练准确率预测器,而是将这个问题重新表述为老虎机。具体来说,对于每个输入查询,将 LLM 定义为“臂”,并获得表示 LLM 性能和该查询成本的奖励。这种表述的好处是双重的:首先,它允许建模者专注于设计奖励函数来捕捉他们的应用需求,从而使框架更加通用;其次,可以利用对老虎机广泛而完善的研究,包括其严谨的理论基础和实际解决方案。 MetaLLM 框架如图所示。

请添加图片描述

剩下的问题是,零样本分类任务的奖励函数设计。Chen [3] 证明,如果一个成本缩放 p ∈ R 是 问题目标(3) 的解,则路由函数 f (x) = arg maxi ai (x) − pci 将是 目标(1) 的最优解。直观地看,该策略更倾向于具有高性能和低成本值的 LLM。受该理论结果的启发,提出用于训练老虎机的奖励函数:

请添加图片描述

在训练过程中,计算训练样本 x 每个分支 j′ 的预期奖励 Qj′ (x; θ),并选择具有最高预期奖励的分支 j,并最小化目标:

请添加图片描述

在推理过程中,MetaLLM 返回查询的每个分支预期奖励,并将该查询分派给奖励最高的 LLM。MetaLLM 的训练和推理算法如算法 所示:

请添加图片描述

  • 12
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值