One Prompt is not Enough: Automated Construction of a Mixture-of-Expert Prompts

题目

一个提示是不够的:自动构建专家提示的混合

在这里插入图片描述

论文地址:https://ar5iv.org/html/2407.00256
项目地址:https://github.com/turningpoint-ai/mixture-of-prompts

摘要

    大型语言模型 (LLM) 在语言指令和上下文演示的提示下表现出对新任务的强大泛化能力。由于这种能力敏感地取决于提示的质量,因此已经探索了各种方法来自动化指令设计。虽然这些方法显示出有希望的结果,但它们也将搜索的提示限制为一条指令。这种简化极大地限制了它们的能力,因为单个无演示的指令可能无法覆盖目标任务的整个复杂问题空间。为了缓解这个问题,我们采用了 Mixture-of-Expert 范式,并将问题空间划分为一组子区域;每个子区域都由一名专业专家管理,他们配备了一条指令和一组演示。开发了一个两阶段的过程来构建每个地区的专业专家:(1) 演示作业:受到上下文学习和内核回归之间的理论联系的启发,我们根据语义相似性将演示分为专家;(2) 指令分配:每个专家对指令进行基于区域的联合搜索,与分配给它的演示相辅相成,产生协同效应。由此产生的代号为 Mixture-of-Prompts (MoP) 的方法,在几个主要基准测试中与现有技术相比,平均胜率为 81%。

简介

    大型语言模型 (LLM) 的最新进展证明了解决用户指令描述的新任务的非凡能力(Ouyang 等人,2022;OpenAI,2023;Touvron 等人,2023;Peters 等人,2018;Devlin 等人,2018;Brown 等人,2020;Wei 等人,2022b)。尽管取得了成功,但用户意图和模型的解释之间仍然存在很大的差距。因此,精心设计的提示(又名提示工程)成为充分引出 LLM 卓越的泛化能力的重要因素(Alhoshan 等人,2022;Zhao 等人,2021;Liu 等人,2021;Lu 等人,2021;Su 等人,2022;Wang 等人,2022 年;Wei 等人,2022 年;Yao 等人,2023;Schick 等人,2023; Kojima 等人,)。但是,它通常需要通过低效的试错进行艰苦的努力。为了减少人工工作,最近的几次尝试在利用 LLM 本身来设计语言生成提示方面显示出了巨大的潜力(周 et al.,2022;Pryzant 等人,2023;Chen 等人,2023;Fernando 等人,2023;Yang 等人,2023;Xu 等人,2022)。这些方法是称为 “LLM as Optimizer” 的更广泛概念框架的一部分 (Yang 等人,2023)。虽然结果很有希望,但沿着这条路线的开创性工作主要集中在根据一组(输入、输出)演示为指定任务找到最佳的免演示指令。虽然这些方法生成的提示可以胜过人工设计的提示,但单个无演示指令可能不足以提供任务的所有可能实例或涵盖整个问题空间,从而限制了 LLM 解决问题的潜力。

    本文旨在通过优化混合提示 (MoP) 来扩大自动提示的问题空间覆盖范围。我们的主要见解是采用专家混合 (MoE) 范式(Jacobs 等人,1991;乔丹和雅各布斯,1994)将问题空间划分为多个同构区域,每个区域由一名专业专家 (PROMPT) 管理。在推理时,将选择一位专家来提示 LLM 回答新的输入查询。在 MoE 框架下,提示优化简化为专家分配问题,旨在为每位专家搜索最合适的提示,目的是优化他们混合物的整体性能。

    本文提出的另一个主要改进是扩展每个专家的提示,以包含指令和演示,并针对问题空间中的每个专家区域进行联合优化。直观地说,具体的演示擅长提供与本地区域中输入查询的详细信息相匹配的细粒度知识和专业技能(本地信息),而指令则提供解决任务(全局信息)的通用能力和高级指导;因此,它们是互补的,共同使专家能够在他们的问题区域表现出色。受此启发,我们采用了一种两阶段搜索算法,联合优化每个专家的 (demos, instruction) 对:我们首先根据语义相似性将所有演示聚类到不同的专家中,然后搜索与提示的每个演示集群互补的最佳指令。对于第一阶段,即演示分配,我们通过聚类算法将演示聚类到语义嵌入空间中的多个区域。对于第二阶段,即指令分配,我们引入了基于区域的联合搜索,以找到最佳指令来补充分配给每个专家的演示。给定一个新的测试查询,我们对包含语义上最接近它的 demo 的 EA 进行程序处理。这种方法的灵感来自最近建立的上下文学习和内核回归之间的理论联系(Han 等人,2023),这表明在 LLM 的嵌入空间中,在语义上更接近测试输入的 demo 往往在推断其答案时表现得更好。

    我们通过广泛的实证研究仔细审查了所提出的提示混合 (MoP)。我们的主要发现可以总结如下:

  1. 嵌入空间中的聚类演示可以有效地找到语义相似的集群,这有助于将测试样本准确地分配给相应的区域和最佳专家。
  2. 专家不一定越多越好:问题空间存在最佳数量的分区。
  3. 每个演示集群的最佳指令通常是不同的,因此需要联合搜索演示和指令。

    我们进一步验证了 MoP 在三个主要提示优化基准中的优势:指令归纳(Honovich 等人,2022)、超自然说明(Wang 等人,2022b)和 BIG-Bench-Hard(Suzgun 等人,2022)。这些基准测试涵盖了广泛的可能任务,包括编码、数学、常识推理、知识检索等。结果表明,MoP 超越了六种具有代表性的近期方法,在几个主要基准测试中实现了 81% 的平均胜率。我们的主要贡献可以总结如下:

  • 我们提出了一个 Mixture-of-Prompt (MoP),一个 Mixture-of-Expert 框架,将问题空间划分为同质区域。
  • 我们将每个 Expert Prompt 扩展为同时包含 instruction 和 demo,这扩大了 prompt 优化的输出空间。
  • 我们对 50 个任务的实证研究 - 提示优化文献中最大的研究之一 - 表明所提出的两步搜索算法,利用语义相似性进行演示分配和基于区域的联合搜索进行指令分配,在主要基准上实现了显着的性能提升。

相关工作

语言生成的提示优化。

    使预训练的语言模型与人类意图保持一致是释放其潜力的关键一步(Ouyang 等人,2022;Schick 等人,2023; Kojima 等人,)。一种有效的免训练对齐方法是提示优化 (PO)(Shin 等人,2020;周 et al.,2022)。PO 源自情境学习 (ICL)(戴尔,2021),主要涉及上下文演示的各种设计和安排(Wei 等人,2022 年;Yao 等人,2023)。它后来演变为自动提示工程,其中使用各种离散优化算法来搜索最佳提示(Shin 等人,2020;邓等人,2022;Zhang 等人,2022)。随着大型语言模型 (LLM) 的出现,出现了一种范式转变,即利用这些模型以类似于人类编写器的方式优化提示(周 et al.,2022;Pryzant 等人,2023;Xu 等人,2022;Yang 等人,2023;Chen 等人,2023;Fernando 等人,2023)。我们的研究建立在这一最新进展的基础上,因为这些方法产生了强大的结果,并提供了更具可解释性的优化过程。

专家混合范式。

    专家混合(Jacobs 等人,1991;乔丹和雅各布斯,1994)是机器学习社区长期关注的经典范式。MoE 结构最初是基于传统的机器学习模型研究的(Jordan 等人,1996;Collobert 等人,2001)。随后,它被扩展到深度神经网络(Eigen 等人,2013)增强其处理复杂视觉和语音问题的能力。随着这一发展,与各种基础神经网络结构集成的 MoE 层激增(Shazeer 等人,2017;Dauphin 等人,2017;Vaswani 等人,2017),从而在广泛的语言相关任务中取得了重大成就。近年来,将 MoE 层与各种基础网络架构相结合的努力在自然语言建模方面取得了显著的成功。我们的工作将这种在架构领域开发的高级范式扩展到了提示优化任务,其中每个专家都被定义为一个专门的提示。

预赛

在这里插入图片描述
图 1:MoP 图示。我们采用 MoE 范式,将问题空间划分为一组子区域。每个子区域都由一名专业专家管理,该专家配备了一条指令和一组演示。开发了一个两阶段的流程来为每个区域构建专业专家:(1) 演示作业:受 ICL 和核回归之间的理论联系的启发,我们根据 demo 的语义相似性将 demo 分组为专家;(2) 指令分配:每个专家对一条指令进行基于区域的联合搜索 (RBJS) 与分配给它的演示相辅相成,从而产生协同效应。在推理过程中,每个新查询都会路由到嵌入空间中最近的专家,然后分配的专家利用其提示(指令 + 演示)做出最终预测。

术语。

    我们首先介绍将在整篇论文中使用的关键术语。我们将 Prompt 定义为问题之前的整篇文章。我们认为 Prompt 可以分为两部分:

  1. Instruction:一组描述任务的自然语言句子,以及
  2. Demos:一组以特定方式构建的输入-输出对,用于演示如何解决任务。以下是此定义下的示例 Prompt:在这里插入图片描述从数学上讲,提示 (P) 可以表示如下(Xie 等人,2021):在这里插入图片描述这里,I 表示一条指令,{(xi , yi)} n i=1 表示上下文中的演示,即 (输入,输出) 对的集合,o delim 表示分隔符标记。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值