MetaLLM：包装 LLM 的高性能且成本高效动态框架-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/140562856

24年7月来自越南大学、亚马逊公司和美国Delaware大学的论文“MetaLLM: A High-performant and Cost-efficient Dynamic Framework for Wrapping LLMs”。

机器学习 (ML) 的快速发展催生了许多在各种任务和领域中表现出色的大语言模型 (LLM)。这些 LLM 在计算或定价方面具有不同的能力和成本。由于每个查询的需求可能有所不同（例如，由于查询域或其复杂性），因此在应用程序中默认使用一个 LLM 通常不是最佳选择，无论它是最大的、最昂贵的，还是平均测试性能最好的。因此，为应用程序选择既准确又成本高效的正确 LLM 仍然是一个挑战。

MetaLLM框架，可以动态、智能地将每个查询路由到最佳 LLM（在几个可用的 LLM 中）以执行分类任务，从而显著提高准确性和成本效益。通过将选择问题定义为老虎机，MetaLLM 在不确定的情况下平衡了预测准确性和成本效率。实验在流行的 LLM 平台上进行，例如 OpenAI 的 GPT 模型、亚马逊的 Titan、Anthropic 的 Claude 和 Meta 的 LLaMa，展示了 MetaLLM 在现实场景中的有效性。

大语言模型在各种任务和领域都表现出非凡的零样本能力，例如文本分类、摘要、问答和聊天机器人 [22, 1, 25, 32, 21, 29]。最近的研究 [13, 5, 10] 建议彻底扩展模型大小和训练数据大小，以提高语言模型的性能并激发其涌现能力；例如，拥有超过 1.74 万亿参数的 GPT-4 在多项任务中取得了优异的表现，但也带来了高昂的经济成本。虽然这种扩展语言模型的趋势将在未来继续，但最近的模型在任务或（子）领域专业化和计算成本方面也日益多样化。因此，对于模型用户来说，确定哪种 LLM 最适合他们的应用已经成为一项艰巨的任务。当考虑到成本限制（计算资源或 API 服务定价）时，这项任务变得更加复杂。

微调是提高 LLM 执行特定任务性能的标准选项。混合专家 (MoE) [8, 26, 7, 28] 在大型模型中训练路由算子以提高其性能；本质上，MoE 将模型视为“专家”（模块）的集合，并学习将输入路由给最佳专家。这些方法需要训练 LLM，这对许多用户来说具有挑战性，而它们的单个 LLM 增强功能通常特定于模型和场景。像思维链 [32, 31, 34] 或思维树 [33] 这样的提示推理可以在不进行额外训练的情况下提高 LLM 性能。然而，MoE 和基于提示的推理都无法从大量可用的 LLM 中受益，其中一些 LLM 的使用成本可能要低得多。

由于其架构和数据集，LLM 已被证明具有多种功能 [12, 30]。Jiang [12] 观察到，在 5000 多条指令中，每个查询的最佳 LLM 差异很大，并且无论其大小如何，都没有单一的最佳模型。因此，他们建议使用集成来结合多个 LLM 的优势以获得更好的性能。FrugalML [2, 3] 按顺序查询级联多个机器学习模型，直到获得具有高置信度分数的响应。受 FrugalML 的启发，Chen [4] 通过应用多种技术（包括提示工程、缓存和级联）来充分利用 LLM 的潜力，以获得更高质量的答案。

与以前结合多种模型优势的方法不同，有些方法尝试针对每个任务查询单个 LLM。Hari & Thomson [9] 建议训练一个语言模型来预测 LLM 的性能并路由到性能最高的模型，但这也考虑到了路由器的高成本。Šakota [24] 将成本-性能权衡公式化为整数线性规划 (ILP) 问题，并使用现有的 ILP 求解器为每个输入查询分配合适的 LLM。Lu [17] 提炼了现成的奖励模型偏好，以选择实现最佳性能的 LLM，而忽略其成本。Ding [6] 训练一个路由器，将简单查询映射到小模型，将困难查询映射到大模型；然而，他们的框架只适用于有两个 LLM 的情况。最近，Hu [11] 提出了一个基准，通过路由模型在下游任务上的成本和性能来评估它们。

最近，许多公司已经将其 LLM 模型商业化，以便客户无需大量技术知识即可将 LLM 应用甚至微调到自己的用例中。2023 年，OpenAI 发布了许多语言模型，例如 text-ada-001、text-babbage-001、text-curie-001 和 text-davinci-0024，价格和功能各不相同。他们的用户可以将这些模型用作聊天机器人，提取文本嵌入，甚至要求他们编写代码。最近，亚马逊还推出了他们的 Bedrock API，允许访问几个基础生成模型，包括文本生成、图像生成和多模态模型。Bedrock 提供亚马逊的 Titan 模型以及其他公司的模型，例如 Anthropic、Cohere、Meta、Mistral 和 Stability。

提出的MetaLLM ，其目标是学习一个路由函数 f : X → K，将查询 x 调度到适当的 LLM，以较低的成本获得良好的响应。例如，给定一个 LLM 子集 K′ ⊆ K，它可以为 x 提供良好的响应，MetaLLM 的目标是返回 arg min l∈K′ cl。实际上，用户希望能够根据其应用程序的需求平衡性能和使用成本。更具体地说，给定预算 b，用户希望在查询 API 时花费少于 b 的资金，同时最大化性能。

请添加图片描述

其矩阵形式如下：

请添加图片描述

其对偶问题格式化如下：

请添加图片描述

Chen [3] 研究了模型级联的类似公式，并建议求解上述对偶形式（3）。在有一个精确的准确度矩阵 A 情况下，可以优化（2）来找到最优的 S，并选择合适的 API j，使得 Si,j = 1。

在部署应用程序时，在测试样本发送至此 LLM 之前，不知道 LLM API 在测试样本上的准确率。先前的研究 [3、2] 学习了一个模型来预测每个 API 的性能。这些方法级联多个机器学习模型并迭代查询它们，直到响应具有很高的置信度；因此，它们非常昂贵，尤其是在有大量查询的情况下。

这项工作从不同的角度来解决这个问题。不是训练准确率预测器，而是将这个问题重新表述为老虎机。具体来说，对于每个输入查询，将 LLM 定义为“臂”，并获得表示 LLM 性能和该查询成本的奖励。这种表述的好处是双重的：首先，它允许建模者专注于设计奖励函数来捕捉他们的应用需求，从而使框架更加通用；其次，可以利用对老虎机广泛而完善的研究，包括其严谨的理论基础和实际解决方案。 MetaLLM 框架如图所示。

请添加图片描述

剩下的问题是，零样本分类任务的奖励函数设计。Chen [3] 证明，如果一个成本缩放 p ∈ R 是问题目标（3）的解，则路由函数 f (x) = arg maxi ai (x) − pci 将是目标（1）的最优解。直观地看，该策略更倾向于具有高性能和低成本值的 LLM。受该理论结果的启发，提出用于训练老虎机的奖励函数：

请添加图片描述