释放大语言模型中提示工程的潜力:综述

23年10月来自北师范大学-香港浸会大学联合国际学院和北师大的论文“Unleashing the potential of prompt engineering in Large Language Models: a comprehensive review“。

本文深入探讨了提示工程在释放大语言模型(LLM)功能方面的关键作用。提示工程是构建LLM输入文本的过程,是优化LLM功效的一项不可或缺的技术。这项调查阐述了提示工程的基本原理,如角色提示、单提示和少量提示,以及更先进的方法,如思维链和思维树提示。本文阐明了插件形式的外部辅助如何帮助完成这项任务,并通过检索外部知识来减少机器幻觉。随后,描绘提示工程研究的前瞻性方向,强调需要更深入地理解人工智能生成内容(AIGC)工具中结构和智体的作用。还讨论了如何从不同的角度和不同的方法来评估提示方法的疗效。最后,收集有关提示工程在教育和程序设计等领域的应用信息,展示了其变革潜力。

LLM将输入文本编码到高维向量空间中来操作,在该空间中保留单词和短语之间的语义关系。然后,模型在学习的统计模式指导下对该表示进行解码以生成响应[2]。响应的质量可能受到各种因素的影响,包括提供给模型的提示、模型的超参数和训练数据的多样性。

在实际应用中,提示是模型的输入,其工程可以导致显著的输出差异[14]。修改结构(例如改变长度、实例排列)和内容(例如措辞、插图选择、指示)可以对模型生成的输出产生显著影响[15]。研究表明,提示中包含的短语和例子序列都对模型的行为产生了重大影响[15,16]。

提示工程学科与LLM并驾齐驱。最初是形成提示以指导模型输出的基本实践,现在已经成熟为一个结构化的研究领域,充满了独特的方法和既定的最佳实践。提示工程是指对输入提示进行系统设计和优化,以指导LLM的响应,确保生成输出的准确性、相关性和一致性。这一过程对于充分利用这些模型的潜力至关重要,使其更容易在不同领域获得和应用。

当代提示工程包括一系列技术,从角色提示[17]等基础方法到“思维链”提示[18]等更复杂的方法。该领域保持动态,新兴研究不断揭示提示工程中的新技术和应用。提示工程的重要性因其指导模型响应的能力而得到强调,从而增强了LLM在各个部门的多功能性和相关性。重要的是,正如[19]和[20]的研究所强调的那样,构建良好的提示可以抵消机器幻觉等挑战。提示工程的影响延伸到许多学科。例如,它促进了用LLM创建稳健的特征提取器,从而提高了它们在缺陷检测和分类等任务中的功效[21]。

给出指令的方法,也被认为是重读[28],指的是人类阅读策略的启发式。已经观察到,GPT-4生成的输出,当提供没有任何补充说明的基本指令时,往往过于笼统[29,30]。一个示例提示如图所示。当向模型提示基本指令时,它会面临过多的选项,这使得结果相当广泛。因此,必须进行全面的描述,以获得更精确和相关的输出[31]。

添加图片注释,不超过 140 字(可选)

大多数LLM体系结构都是从大量的文本数据中派生出来的。它可以被概念化为来自无数作者见解的组合。当出现广泛或详细提示时,其输出主要表现出通用性,虽然可适用于各种上下文,但可能不适合任何特定应用。相比之下,详细而精确的提示使模型能够生成更符合给定场景独特要求的内容,因为它减少了模型的不确定性,并引导其做出正确的响应。

例如如图所示,与其提出诸如“我想了解技术的前沿”之类的模糊要求,更准确的提示是“我想理解技术的前沿,特别是与人工智能和机器学习有关的前沿……”。

添加图片注释,不超过 140 字(可选)

角色提示是提示工程的另一种基本方法。它包括赋予模型一个特定的角色,例如一个乐于助人的助手或知识渊博的专家[32]。这种方法可以特别有效地指导模型的响应,并确保它们与期望的输出一致。例如,如果模型被提示充当历史学家,当被问及历史事件时,它更有可能提供详细且上下文准确的回答[33]。另一个简单的例子如图所示。

添加图片注释,不超过 140 字(可选)

在提示工程中,三引用(triple quotes)的使用是一种用于分隔一个提示为不同部分或封装多行字符串的技术。当处理包括多个组件的复杂提示时,或者当提示本身包含引用时,这种技术特别有用,这使模型更好地理解指令[34]。

由于LLM的不确定性,在生成响应时尝试多次通常是有益的。这种技术通常被称为“重采样”,包括在相同的提示下多次运行模型并选择最佳输出。这种方法可以帮助克服模型响应的固有可变性,并增加获得高质量输出的机会[26]。

单次和少量提示是提示工程中的两项重要技术。单次提示是指给模型一个例子进行学习的方法,而少量提示[35]为模型提供了多个例子[36]。在单次提示和少量提示之间的选择通常取决于任务的复杂性和模型的能力。例如,对于简单的任务或功能强大的模型,单次提示可能就足够了。一个示例如图所示。然而,对于更复杂的任务或能力较差的模型,少量提示可以提供额外的上下文和指导,从而提高模型的性能。

添加图片注释,不超过 140 字(可选)

然而,如[37]所述,“例子并不总是有帮助的”。[37]研究了大型生成语言模型(如GPT-3)如何对提示做出反应的复杂性。本文的一个重要发现是,在某些情况下,零样本提示可以优于少量提示。这表明,少样本示例的作用,与其说是教模型一项新任务(元学习),不如说是引导它回忆起已经学习过的任务。这一见解至关重要,因为它挑战了传统观点,即更多的例子总是能带来更好的性能[3]。在一次或几次提示的情况下,必须理解,虽然示例可以指导模型,但并不总是能提高其性能。有时,精心制作的零样本提示可能比提供多个示例更有效[38]。

LLM的设置,如温度和top-p,在反应的产生中起着至关重要的作用。温度参数控制生成输出的随机性:较低的温度导致更具确定性的输出[39,40]。另一方面,top-p参数控制核采样[26],这是一种向模型输出增加随机性的方法[41]。调整这些参数会显著影响模型响应的质量和多样性,使其成为提示工程的重要工具。然而,已经注意到,以ChatGPT为例的某些模型不允许配置这些超参数,除非使用应用程序编程接口(API)。

当将LLM用于分析或推理等复杂任务时,模型输出的准确性仍有提高的空间。有一些提示工程中的先进技术,能够指导模型生成更具体、准确和高质量的内容。

CoT

LLM中的“思维链”(CoT)提示[18]概念是人工智能领域的一个相对较新的发展,它已被证明可以显著提高LLM在各种逻辑推理任务中的准确性[42-44]。CoT提示包括提供中间推理步骤来指导模型的反应,这可以通过简单的提示(如“让我们一步一步思考”)或一系列手动演示来促进,每个演示都由一个问题和一个推理链组成,从而得出答案[45,46]。它还为模型的推理过程提供了一个清晰的结构,使用户更容易理解模型是如何得出结论的。

[47]说明了CoT提示在医学推理中的应用,表明它可以有效地从LLM中引出有效的中间推理步骤。[48]引入了通过思维链推理进行自我教育(Self-Education via Chain-of-Thought Reasoning,SECToR)的概念,并认为,本着RL的精神,LLM可以通过思维链的推理成功地自学新技能。在另一项研究中,[49]使用CoT提示来训练验证器解决数学单词问题,展示了该技术在教育应用中的潜力。[50]提出了一种称为多模态CoT的多模态版本,处理除简单基于文本任务(如视觉任务)之外的更复杂多模态任务,进一步扩展了CoT的潜在应用。

零样本CoT

“零样本思维链”(ZSCoT)提示的概念是CoT提示机制的高级迭代,其中“零样本”方面意味着模型能够在训练期间执行一些推理,而不需要看到任何任务的例子。

在研究中,[51]发现,用短语“让我们一步一步地思考”来增加查询有助于LLM生成顺序推理链。这条推理链后来被证明有助于得出更精确的答案。这项技术的基础是,模型和人类一样,可以通过更详细、更合乎逻辑的步骤来处理提示并生成响应。

例如,标准提示如下第一个图所示,而附加短语“让我们一步一步地思考”如下面第二个图所示。观察表明,“让我们一步一步地思考”的加入增强了模型反应的逻辑连贯性和全面性。

添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)

黄金CoT

[52]引入了“黄金思维链”,提供了一种对基于指令的查询生成响应的创新方法。该方法利用了一组包含在提示中的“真值思维链”解决方案,可考虑简化模型的任务,因为它避开了独立生成CoT的必要性。同时,还设计了一个包含侦探谜题的新基准,评估LLM的诱导推理能力,这也被认为是对黄金CoT的评估。最后,根据[52]的实验,在黄金CoT背景下,GPT-4表现出了值得称赞的性能,其求解率为83%,而标准CoT的求解率为38%。

然而,尽管黄金CoT的解决率高达83%,但它的特点是需要将“真值思维链解决方案”作为提示的一个组成部分,这也意味着它在解决此类问题方面的贡献是有限的。

自洽性(self-consistency)

在一个名为PRONTOQA (Proof and Ontology-Generated Question-Answering)[54,55]的新合成QA数据集上对InstructionGPT[53]和GPT-3[3]进行评估,可以观察到,尽管最广泛的模型在推理任务中表现出能力,但它在证明规划和在多个选项中选择适当的证明步骤方面遇到了挑战,这导致了准确度的不确定性[54]。LLM中的自洽性是一种先进的提示技术,旨在确保模型的响应相互一致[18,56],这大大增加了获得高度准确结果的几率。其背后的原则是,如果让一个模型回答一系列相关问题,答案不应相互矛盾。

自洽性方法包含三个步骤。首先,使用CoT提示去提示语言模型,然后通过从语言模型解码器中采样来替换CoT提示中的“贪婪解码”(1-Best)[25,57],生成一组不同的推理路径,最后,在最终答案集中选择最一致的答案来边缘化推理路径并进行聚合。

值得注意的是,自洽性可以与大多数采样算法和谐集成,包括但不限于温度采样[39,40]、top-k采样[25,58,59]和核采样[26]。然而,这样的操作可能需要调用模型的应用编程接口(API)来微调这些超参数。有鉴于此,一种替代方法可以是允许模型使用不同的推理路径生成结果,然后生成一组不同的候选推理路径。在各种推理轨迹中表现出最高一致性的响应,更倾向于表示准确的解决方案[60]。

研究表明,自洽性增强了算术、常识和符号推理任务的结果[2,61]。此外,在实践中,自洽性可以与其他技术相结合,进一步提高模型的性能。例如,一项研究发现,将自洽性与鉴别器引导的多步推理方法相结合,显著提高了模型的推理能力[62]。

生成知识

提示工程中的“生成知识”[63]方法,是一种利用LLM的能力在生成最终响应之前生成关于给定问题或提示潜在有用信息的技术。这种方法在需要常识推理的任务中特别有效,因为它允许模型生成和利用可能没有明确出现在初始提示中的额外上下文。

如上图所示,当向模型提出质疑时,“想象一个无限宽的入口,哪一个更有可能穿过它,是军用坦克还是汽车?”,标准提示主要产生忽略了“入口高度”因素的反应。

相反,如下面两个图所示,提示模型首先生成相关信息,然后在查询中使用生成的信息,会产生逻辑连贯性和全面性增强的输出。值得注意的是,这种方法刺激模型考虑“入口高度”等显著因素。

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)

最小到最大提示

“最小到最大提示”[64]的概念是一种先进的方法,包括从最小提示开始,逐渐增加其复杂性,以从语言模型中引出更复杂的反应。这种方法的基本前提是将复杂的问题分解为一系列更基本的子问题,然后依次进行处理。每个子问题的解决都是通过利用先前子问题得出的解决方案来加快的。

在符号操作、组合概括和数学推理等领域进行了严格的实验后,[64]的研究结果证实,“最少到最多提示”的范式,在比提示中最初提出的挑战更复杂的情况下,表现出泛化的能力。他们发现LLM似乎对这种方法做出了有效的反应,证明了其增强这些模型推理能力的潜力。

思维树

“思维树”(ToT)提示技术是一种先进的方法,它采用结构化的方法来指导LLM的推理和响应生成过程。与依赖线性指令序列的传统提示方法不同,ToT方法以类似于树结构的分层方式组织提示,允许深思熟虑地解决问题[65]。例如,当任务是解决一个复杂的数学问题时,传统的提示可能会直接向LLM询问解决方案。相反,使用ToT方法,初始提示可能首先要求模型概述解决问题所需的步骤。随后的提示将深入研究每一步,引导模型完成系统的问题解决过程。

[65]表明,这种方式更通用,可以处理标准提示可能不足的具有挑战性的任务。[66]的另一项研究进一步强调了这项技术通过构建LLM的思维过程来提高其性能的潜力。

[5] 引入了“思维提示树”,这是一种吸收了ToT框架基本原理并将其转化为流线型提示方法的方法。该技术使LLM能够在单一提示内评估中间认知结构。ToT提示示例如图[5]所示。

添加图片注释,不超过 140 字(可选)

思维图

与“思维链”或“思维树”范式不同,“思维图”(GoT)框架[67]提供了一种更复杂的方法来表示LLM生成的信息。GoT背后的核心概念是将这些信息建模为任意图。在这个图中,被称为“LLM思维”的单个信息单元,被表示为顶点。另一方面,图的边描述了这些顶点之间的依赖关系。这种独特的表示允许任意LLM思维的组合,从而在模型的输出中产生协同效应。

在应对复杂挑战的背景下,利用GoT框架的LLM最初可能会产生几个自主的想法或解决方案。这些单独的见解随后可以基于它们的相关性和相互依赖性而相互关联,最终形成一个详细的图。这种构建的图允许多种遍历方法,确保最终解决方案既精确又全面,涵盖了挑战的各个维度。

GoT框架的有效性取决于其适应性及其所能产生的深刻见解,特别是在需要多方面解决的复杂问题上。尽管如此,必须认识到,虽然GoT促进了解决问题的系统方法,但它也需要对主题进行深刻理解,并进行细致的提示设计,实现最佳结果[68]。

检索增强

提示工程的另一个方向是旨在减少幻觉。当使用GPT-4等AIGC工具时,通常会面临一个称为“幻觉”的问题,这是指模型生成的输出中存在不真实或不准确的信息[19,69]。虽然这些输出可能在语法上是正确的,但它们可能与事实不一致或缺乏真实世界的数据支持。之所以出现幻觉,是因为该模型可能在其训练数据中没有找到足够的证据来支持其响应,或者在试图生成流畅连贯的输出时,它可能过度泛化某些模式[70]。

减少幻觉和提高提示有效性的一种方法是所谓的检索增强技术,旨在将最新的外部知识纳入模型的输入[71,72]。它正在成为一种从外部来源检索事实的人工智能框架。[73]研究了通过整合外部信息来增强上下文检索。它提出了一种复杂的操作:将从外部来源获得的相关信息直接连接到提示,随后将其视为输入到扩展语言模型的基础知识。此外,本文还介绍了用于检索和解码的自回归技术,为信息检索和融合提供了一种更细致的方法。这项研究表明,在上下文检索中,当在现成的通用检索器上构建增强语言模型[73]时,会在各种模型维度和不同的语料库中产生显著的LLM增强。在另一项研究中,[74]表明,GPT-3可以通过研究架构的各种组件来减少幻觉,如检索增强生成(RAG)[75]、解码器中融合(FiD)[76]、Seq2seq [77-79]等。[80]开发了验证链(Chain-of-Verification,CoVe)来减少幻觉,在验证执行步骤中配备诸如检索增强之类的工具使用,该链可能会带来进一步的收益。

使用插件打磨提示

在介绍了提示工程的详细技术和方法后,探索使用一些最近开发的外部提示工程助手,这些助手显示出很有前途的潜力。与之前介绍的方法不同,这些工具可以帮助直接打磨提示。他们擅长分析用户输入,然后在自己定义的上下文中产生相关输出,从而增强提示的有效性。OpenAI提供的一些插件就是此类工具的好例子[81]。

在某些实现中,插件的定义被合并到提示中,可能会改变输出[82]。这种集成可能会影响LLM解释和响应提示的方式,从而说明提示工程和插件之间的联系。此外,插件可以减轻复杂提示工程的开销,使模型能够更熟练地理解或处理用户查询,而不需要过于详细的提示。因此,插件增强了提示工程的效率,同时提高以用户为中心的效率。这些工具类似于软件包,可以无缝集成到Python中并直接调用[83,84]。此类插件通过提供连贯且与上下文相关的响应来增强提示的有效性。例如,AISEO[86]开发的“提示增强器”插件[85],可以通过单词“AISEO”启动提示来调用,使AISEO提示生成器自动增强所提供的LLM提示。同样,另一个名为“完美提示”的插件可以以“完美”开头的提示来自动增强提示,旨在为手头的任务提供“完美”提示[87,88]。

下面是一些前瞻性方法介绍。

结构理解

关于提示工程的未来,出现的一个重要轨迹是更好地理解人工智能模型底层结构的重要性。这种理解对于通过提示有效地指导这些模型、并生成更符合用户意图的输出,至关重要。

包括GPT-4在内,大多数人工智能模型的核心是旨在理解和生成人类语言的复杂机制。这些机制的相互作用形成了这些模型的“结构”。理解这种结构涉及到解开神经网络的多层、工作中的各种注意力机制,以及单个节点和权重在这些模型决策过程中的作用[89]。加深对这些结构的理解可能会导致提示工程的实质性改进。对模型的误解可能导致缺乏复现[90]。通过了解模型结构的特定组件如何影响其输出,可以设计更有效地利用这些组件的提示。

此外,全面掌握这些结构可以揭示某些提示的缺点,并指导其改进。通常,提示无法产生预期输出的潜在原因与模型的体系结构密切相关。例如,[16]在以前的提示模型中发现了局限性的证据,并质疑这些方法在多大程度上真正理解了模型。

人工智能模型架构的探索仍然是一个充满活力的研究领域,许多努力旨在理解这些复杂的框架。一个值得注意的例子是DeepMind的“casual transformer”模型[91],该模型旨在明确描述数据中的因果关系。这代表朝着更深入地理解人工智能模型架构迈出了一步,有可能帮助设计更高效的提示。

此外,更全面地掌握人工智能模型架构也将在可解释的人工智能方面取得进展。除了更好地进行提示工程外,这还将增强对人工智能系统的信任,并促进其在不同行业的集成[92]。例如,尽管人工智能正在改变金融部门,涵盖客户服务、欺诈检测、风险管理、信用评估和高频交易等领域,但在这些进步的同时,也出现了一些挑战,特别是与透明度有关的挑战[93,94]。另一个例子是医学,人工智能的变革潜力也面临着类似的挑战[95,96]。

总之,更好地理解人工智能模型结构的轨迹有望在提示工程方面带来重大进步。随着对这些复杂系统的深入研究,应该能够制作更有效的提示,了解提示失败背后的原因,并提高人工智能系统的可解释性。这条道路有可能改变与人工智能系统的互动和利用方式,突显其在未来提示工程中的重要性。

AIGC工具的智体

人工智能智体的概念已经成为人工智能研究的一个潜在轨迹[97]。根据定义,人工智能智体包括大模型、记忆、主动规划和工具使用。人工智能智体能够记住和理解大量信息,积极规划和制定战略,并有效地使用各种工具在复杂的问题空间中生成最佳解决方案[98]。

人工智能智体的进化可以分为五个不同的阶段:模型、提示模板、链、智体和多智体。每个阶段都有其对提示工程的具体影响。以GPT-4等体系结构为例的基础模型是提示工程领域的基础。

特别是,提示模板提供了一种在实践中应用提示工程的有效方法[18]。通过使用这些模板,可以创建标准化的提示来指导大模型,使生成的输出与期望的输出更加一致。提示模板的使用是使人工智能智体更好地理解和执行用户指令的关键一步。

人工智能智体将这些方法和工具合并到一个自适应框架中。他们拥有自主调节行为和策略的能力,努力优化任务执行的效率和准确性。提示工程的一个突出挑战出现了:设计和建立提示,熟练地引导人工智能提示实现自我调节[16]。

总之,基于智体的范式的引入预示着AIGC工具的发展将有一条新的轨迹。这种转变需要重新评估提示工程中的既定实践,并带来与提示的设计、实施和改进相关的新挑战。

  • 15
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值