23年5月来自斯坦福大学的论文“FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance”。
用户可以付费查询的大语言模型 (LLM) 数量正在迅速增加。调查目前查询流行 LLM API(例如 GPT-4、ChatGPT、J1-Jumbo)的相关成本,发现这些模型的定价结构各不相同,费用可能相差两个数量级。特别是,在大量查询和文本上使用 LLM 可能会非常昂贵。受此启发,本文讨论用户可以利用的三种策略来降低使用 LLM 相关的推理成本:1) 提示适应,2) LLM 近似,3) LLM 级联。
作为示例,本文提出 FrugalGPT,这是 LLM 级联的一个简单而灵活的实例,它可以学习针对不同的查询使用哪些 LLM 组合以降低成本并提高准确性。实验表明,FrugalGPT 可以达到最佳单个 LLM(例如 GPT-4)的性能,同时成本降低高达 98%,或者以相同的成本将准确率比 GPT-4 提高 4%。
目前正处于大语言模型 (LLM) 爆炸式增长的时期。LLM 在商业、科学和金融等大规模应用中具有诱人的可能性,这促使越来越多的公司 (OpenAI、AI21、CoHere 等) 将 提供 LLM 作为服务。
虽然 GPT-4 等 LLM 在问答等任务中实现了前所未有的性能,但将它们用于高吞吐量应用程序可能会非常昂贵。例如,据估计,ChatGPT 每天的运营成本超过 700,000 美元 [Cosa],而使用 GPT-4 支持客户服务的成本可能超过每月 21,000 美元 [Cosb]。除了财务成本外,最大的 LLM 使用,还会对环境和能源产生重大影响 [BGMMS21、WRG+22],影响当代和后代的社会福利。
现在有许多 LLM 可通过 API 获得,而且它们收取的价格各不相同。使用 LLM API 的成本通常由三个部分组成:1) 提示成本(与提示长度成正比),2) 生成成本(与生成长度成正比),3) 有时每个查询的固定成本。比较使用主流提供商(包括 OpenAI、AI21、CoHere 和 Textsynth)的 12 种不同商业 LLM 的成本,如表所示。它们的成本可能相差多达 2 个数量级:例如,OpenAI GPT-4 的 1000 万个tokens提示成本为 30 美元,但 Textsyth 托管的 GPT-J 仅为 0.2 美元。
鉴于成本和质量参差不齐,如何有效且高效地利用 LLM 选项的全套,是从业者面临的一个关键挑战。如果任务相对简单,那么汇总 GPT-J [WK21](其大小是 GPT-3 的 1/30)多个响应可以提供与 GPT-3 [ANC+22] 类似的性能,从而节省资金和环境成本。但是,在执行困难任务时,GPT-J 的性能可能会差得多 [TLI+23]。此外,如果由于需求激增导致某个 API 提供商不可用,则依赖该提供商并不可靠。现有的模型集成范式(例如模型级联 [VJ04、WLM11] 和 FrugalML [CZZ20、CZZ22])为具有一组已知标签的预测任务而设计,并未考虑到 LLM 全部功能。因此,如何经济而准确地使用 LLM 需要新的方法。
如图所示降低 LLM 成本同时提高准确性的努力比较: (a) 标准用法将查询发送到单个 LLM(例如 GPT-4),这可能会很昂贵; (b) 使用三种成本降低策略:提示自适应、LLM 近似和 LLM 级联;通过优化不同 LLM API(例如 GPT-J、ChatGPT 和 GPT-4)的选择以及提示策略(例如零样本 [BMR+20]、少样本 [LSZ+21] 和思维链 (CoT) [WWS+22]),可以实现显着的效率提升; © 在 HEADLINES(一个金融新闻数据集)上,FrugalGPT 可以将推理成本降低 98%,同时超过最佳单个 LLM(GPT-4)的性能。
如图所示示节省成本策略的说明:(a)提示选择,使用上下文示例的子集作为提示,以减小提示的大小;(b)查询连接,聚合多个查询,共享提示;(c)补全缓存,在提出一个类似查询时,存储并重用 LLM API 的响应;(d)模型微调,使用价格贵的 LLM 响应,去微调廉价的 LLM;(e)LLM 级联,针对不同的查询采用不同的 LLM API。
从 5 家主流提供商中选择 12 个 LLM API,分别是 OpenAI [Ope]、AI21 [AI2]、CoHere [CoH]、Textsynth [Tex] 和 ForeFrontAI [FFA]。详细信息总结在上表中。FrugalGPT 是在这些 API 的基础上开发的,并在属于不同任务的一系列数据集上进行评估,包括 HEADLINES [SK21]、OVERRULING [ZGA+21] 和 COQA [RCM19]。这些数据集的摘要如下表所示。
HEADLINES 是一个金融新闻数据集,其目标是通过阅读金融新闻标题来确定黄金价格趋势(上涨、下跌、中性或无)。这对于筛选金融市场中的相关新闻特别有用。OVERRULING 是一个法律文件数据集,其目标是确定给定的句子是否是驳回,即驳回先前的法律案件。 COQA 是在对话环境中开发的阅读理解数据集,已将其改编为直接查询回答任务。专注于级联长度为 3 的 LLM 级联方法,因为这简化优化空间并且已经展示了良好的结果。每个数据集被随机分成一个训练集学习 LLM 级联和一个测试集进行评估。
如图所示 FrugalGPT 在 HEADLINES 数据集上的案例研究:(a)FrugalGPT 在该数据集学习的级联策略,总预算为 6.5 美元,仅为 GPT-4 成本的五分之一。只要 GPT-J 和 J1-L 产生高质量的答案,FrugalGPT 就会避免查询 GPT-4。(b)有时 GPT-4 会犯错误,但 FrugalGPT 会通过 J-1 和 GPT-J 学会使用正确的答案。(c)总体而言,与 GPT-4 相比,FrugalGPT 将成本降低 80%,同时将准确率提高 1.5%。