元建模方法选择成本-高效的语言模型_fly-swat or cannon? cost-effective language model -CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/141038008

23年12月来自瑞士EPFL的论文“Fly-Swat or Cannon? Cost-Effective Language Model Choice via Meta-Modeling”。

生成式语言模型 (LM) 已在数据科学中无处不在。对于各种各样的任务，输入可以表述为 LM 的自然语言提示，然后可以从其输出中提取解决方案。LM 性能一直随模型规模的扩大而提高，但查询越来越大模型的财务成本也在增加。然而，重要的是，并非所有输入都是同样难度：有些输入需要更大的 LM 才能获得令人满意的解决方案，而对于其他输入，较小的 LM 就足够了。基于这一事实，设计一个具有成本效益的语言模型选择框架，称为“苍蝇拍或大炮”（FORC）。给定一组输入和一组候选 LM，FORC 会根据所谓的元模型明智地将每个输入分配给预测在输入上表现良好的 LM，旨在以低成本实现高整体性能。用户可以灵活地调整成本-性能权衡。选项包括最大化预期总性能（或处理的输入数量）同时保持在给定的成本预算内，或者最小化处理所有输入的总成本。

最先进的语言模型 (LM) 具有数千亿个参数，因此需要大量的计算能力，从而导致更高的成本。例如，在 8K tokens 上下文中运行 GPT-4 的成本，比在 4K tokens 上下文中对同一查询运行 GPT-3.5 的成本高出 20 倍。尽管 LLM 擅长处理复杂的语言任务，但重要的是要认识到并非每种情况都需要它们的强大功能。较小的 LM 通常擅长处理较简单的语言任务，在不需要完整 LLM 功能的情况下，它们可能是一种更具成本效益的选择。例如，用四种不同语言模型检查 14 个数据集，33% 的数据样本由最大的模型和至少一个较小的模型成功解决，而 11% 的数据样本仅由一个或多个较小的模型解决，而最大的模型无法正确回答。因此，将每个输入分配给能够解决该输入的最便宜的模型，可以节省成本。实现这一点的问题是如何提前预测哪些模型可以正确解决哪些输入——而不是在每个输入上实际运行每个 LM，这将违背目的。Chen [3] 建议级联使用越来越昂贵的 LM，直到获得令人满意的结果。这可能需要对每个输入查询多个 LM，这是需要要避免的。

如图所示FORC 概述，用于成本-高效的 LM 选择框架，包括两个步骤：（1）预测每个候选 LM 对每个输入查询的成本和性能。成本预测使用 API 定价完成。性能预测使用元模型完成，该模型基于现有的 LM 查询和 LM 性能分数对，提前进行训练（未显示）。（2）使用分配策略将每个查询分配给最多一个 LM，低成本实现较高的总体预期性能。注意：这两个步骤不需要与 LM 交互；只有在完成上述步骤后，查询才会被提供给分配的 LM。

请添加图片描述

FORC框架有三个主要组成部分：元模型、成本估算和分配策略。首先，用户需要指定他们想要解决的一组查询。然后，使用元模型，预测每个 LM 𝑙𝑖 在每个查询 𝑞𝑗 上的性能 𝑝𝑖𝑗。同时，估计使用 LM𝑙𝑖 时查询 𝑞𝑗 的成本 𝑐𝑖𝑗。接下来，用户需要指定分配策略之一，以及可选的成本-性能要求。然后，该策略将用于将每个查询分配给最多一个 LM。

有两种类型的策略：

(i) 成本-不敏感策略：将成本-不敏感策略应用于样本时，不会考虑用户可能设置的预算或性能的任何限制。每个数据样本都以相同的方式处理，独立于整个批次。定义以下成本-不敏感策略：

(a) 单一模型策略：此策略意味着将可用 LM 中的单个固定 LM 应用于每个样本。
(b) 性能最大化策略：此策略基于元模型的输出。对于每个样本，选择元模型预测可实现最高性能的 LM。
© 阈值策略：此策略也基于元模型的输出。用户必须指定一个可接受的性能阈值来定义任务是否已解决。根据该阈值对输出进行二值化。此策略可能有用的一个具体示例是使用二值指标（例如准确度）评估的任务。该策略的工作原理是选择解决相应数据样本最便宜的
LM。如果没有一个 LM 能够根据元模型解决样本，则研究两种可能性：为该数据样本选择最小（因此通常最便宜）的 LM，或选择最大（因此通常最强大）的 LM。

(ii) 成本-敏感策略：与成本-不敏感策略相反，在这种情况下，考虑用户为整个数据样本批次设置的约束（例如成本约束）。这样问题转化为优化问题。采用以下成本敏感策略：

(a) 面向成本的 ILP 策略：为每个样本分配一个 LM 的问题表述为整数线性规划 (ILP) 问题。将 𝑀 定义为 LM 集，𝑆 定义为需要分配给 LM 的样本集，𝐶max 定义为处理所有样本的最大总成本。引入一个二元变量 𝑥𝑖𝑗 来描述数据样本 𝑞𝑗 和 LM 𝑙𝑖 之间的分配（或不分配）。如果 𝑥𝑖𝑗 = 1，则样本 𝑞𝑗 被分配给 LM 𝑙𝑖 。样本不一定必须分配给任何 LM。将样本 𝑞𝑗 分配给 LM 𝑙𝑖 与成本 𝑐𝑖𝑗 和值 𝑝𝑖𝑗 相关联，其中成本 𝑐𝑖𝑗 对应于估计成本，值 𝑝𝑖𝑗 对应于使用 LM 𝑙𝑖 解决样本 𝑞𝑗 时的预测性能。目标是在尊重成本约束的同时最大化整个样本集的性能。
(b) 面向性能的 ILP 策略：与前一种情况类似，以 ILP 的形式制定这个问题。在这种情况下的目标是最小化成本，同时尊重用户设置的性能约束 𝑃min。此策略还可以在对性能值 𝑝𝑖𝑗 进行二值化时实施，就像在成本不敏感阈值策略下所做的那样。在这种情况下，面向性能的 ILP 策略可以看作是最小化解决至少 𝑃min 个样本的成本。 © 贪婪策略：此策略的工作原理是按序浏览样本，并为每个样本选择根据元模型实现最高性能的 LM，直到达到成本约束。在此之后，剩余的数据样本保持未分配状态，不会输入给池中的任何 LM。实验中这些被视为不正确（当准确度作为性能指标），成本为零。

本文采用的元模型是 DistilBERT 模型（66M 个参数），根据收集的原始运行数据集进行微调。它使用 Adam 优化器进行训练，学习率为 3 × 10−5，欧几里得范数梯度剪裁为 0.1。该模型训练 3,000 步，批次大小为 16，一个多项式学习率调度程序，最终学习率为 0。训练在一台配备单个 Tesla T4 16GB GPU 的机器上进行，耗时约 2 小时。

作为比较的基准，用一个虚拟分类器，它始终根据查询的数据集预测最常见的类别。值得注意的是，在推理过程中，元模型仅适用于查询，而无需指定查询所来自的数据集。