利用LLM的实践:关于ChatGPT及其它的综述

23年4月份Amazon和TAMU、RICE等学校撰写的LLM实践指导论文“Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond“。

本文为下游自然语言处理 (NLP) 任务用LLM的从业者和用户提供全面实用的指南。从模型、数据和下游任务的角度对LLM的使用进行讨论和见解。首先提供当前GPT和BERT风格的LLM介绍和简要总结。然后,讨论预训练数据、训练数据和测试数据的影响。最重要的是,详细讨论LLM在各种自然语言处理任务中的用例和非用例,例如知识密集型任务、传统自然语言理解任务、自然语言生成任务、涌现能力和特定任务的注意事项。介绍各种用例和非用例,说明LLM在实际场景中的实际应用和局限性。还试图了解数据的重要性以及与每个NLP任务相关的特定挑战。此外,探讨伪造偏差对LLM的影响,并深入研究其他基本考虑因素,例如效率,成本和延迟,确保全面了解在实践中如何部署LLM。本综合指南旨在为研究人员和从业者提供与LLM合作的宝贵见解和最佳实践,从而使这些模型能够在广泛的NLP任务中成功实施。

如下图给出LLM的演变:

在这里插入图片描述

这些模型在训练策略、模型架构和用例方面有所不同。为了更清楚地了解LLM环境,可分为:编码器-解码器、仅编码器模型和仅解码器的三种语言模型。从进化树中,有以下有趣的观察:

a)仅解码器模型已逐渐主导LLM的发展。在LLM开发的早期阶段,仅解码器模型并不像仅编码器和编码器-解码器模型那样流行。然而,在 2021 年之后,随着改变游戏规则的 LLM - GPT-3 的推出,仅解码器模型经历了显着的繁荣。与此同时,在BERT带来的最初爆炸性增长之后,仅编码器模型逐渐开始消失。

b) OpenAI始终保持其在LLM领域的领导地位,无论是现在还是将来。其他公司和机构正在努力赶上OpenAI开发与GPT-3和当前GPT-4相当的模型。这种领导地位可能归因于OpenAI对其技术路径的坚定承诺,即使它最初并未得到广泛认可。

c) Meta对开源 LLM做出了重大贡献,并促进了LLM的研究。在考虑开源社区的贡献时,特别是那些与LLM相关的贡献,Meta 是最慷慨的商业公司之一,因为 Meta 开发的所有 LLM 都是开源的。

d) LLM表现出闭源的趋势。在LLM开发的早期阶段(2020年之前),大多数模型都是开源的。然而,随着 GPT-3 的引入,公司越来越多地选择关闭模型,如 PaLM、LaMDA 和 GPT-4。因此,学术研究人员对LLM训练进行实验变得更加困难。因此,基于API的研究可能成为学术界的主要方法。

e) 编码器-解码器模型仍然很有希望,因为这种类型的架构仍在积极探索中,其中大多数是开源的。谷歌为开源编码器-解码器架构做出了重大贡献。然而,纯解码器模型的灵活性和多功能性似乎使谷歌对这个方向的坚持不那么有希望。

预训练数据。预训练数据在大语言模型的开发中起着关键作用。作为LLM卓越能力的基础[5,47],训练前数据的质量、数量和多样性影响LLM的性能[124]。常用的预训练数据由无数文本源组成,包括书籍、文章和网站。这些数据经过精心挑选,确保全面呈现人类知识、语言细微差别和文化观点。预训练数据的重要性在于能够通过对单词知识、语法、句法和语义的丰富理解来为语言模型提供信息,以及识别上下文和生成连贯响应的能力。预训练数据的多样性在塑造模型的性能方面也起着至关重要的作用,LLM的选择在很大程度上取决于预训练数据的组成部分。例如,PaLM [22] 和 BLOOM [92] 擅长多语言任务和机器翻译,拥有丰富的多语言预训练数据。此外,PaLM在问答任务中的表现通过结合大量的社交媒体对话和书籍语料库而得到增强[22]。同样,GPT-3.5 (code-davinci-002) 的代码执行和代码完成功能,通过预训练数据集中集成代码数据来增强。简而言之,在为下游任务选择LLM时,建议选择在类似数据领域预先训练的模型。

微调数据。为下游任务部署模型时,必须根据标注数据的可用性考虑三个主要方案:零、少和丰富。

零标注数据:在注释数据不可用的情况下,在零样本设置中使用LLM被证明是最合适的方法。LLM已被证明优于以前的零样本方法[120]。此外,缺少参数更新过程可确保避免灾难性遗忘[49],因为语言模型参数保持不变。

少量标注数据:在这种情况下,少样本例子直接被纳入LLM的输入提示中,称为上下文学习,这些示例可以有效地指导LLM推广到特定任务。如[16]所述,单样本和少样本性能显着提高,甚至与SOTA微调的开放域模型性能相匹配。LLM的零/少样本学习能力可以通过规模进一步提高[16]。或者,发明一些少样本学习方法来增强微调模型,例如元学习[56]或迁移学习[88]。但是与LLM 相比,由于微调模型的规模较小且过拟合,性能可能较差。

丰富注释数据:对于特定任务具备大量标注数据可用,可以考虑微调模型和LLM。在大多数情况下,微调模型可以很好地拟合数据。虽然,LLM满足一些限制,例如隐私[99]。在此方案中,使用微调模型或 LLM 之间的选择是特定于任务的,还取决于许多因素,包括所需的性能、计算资源和部署约束。

简而言之,LLM在数据可用性方面更加灵活,而微调模型可以考虑丰富的标注数据。

测试数据/用户数据。为下游任务部署LLM时,经常面临测试/用户数据和训练数据之间的分布差异带来的挑战。这些差异可能包括域迁移[132],分布外变异[31],甚至是对抗性示例[82]。这些挑战极大地阻碍微调模式在实际应用中的有效性。只适合特定分布,并且泛化 OOD 数据的能力很差。但是,LLM 在面对这种情况时表现得非常好,因为没有明确的拟合过程。此外,最近的进展进一步增强语言模型在这方面的能力。来自人类反馈的强化学习(RLHF)方法显着增强LLM的泛化能力[77]。例如,InstructGPT 表现出熟练地遵循各种任务的各种说明,并偶尔遵守不同语言的说明,即使此类说明很少。同样,ChatGPT在大多数对抗性和分布外(OOD)分类和翻译任务上表现出一致的优势[109]。在理解对话相关文本方面的优势导致DDXPlus数据集[101]表现出色。注:DDXPlus数据集是为OOD评估而设计的医学诊断数据集。

得到的提示

数据方面的提示:

1)LLM在面对分布外数据的下游任务中比微调模型更好地泛化,例如对抗性示例和域迁移。
2)在处理有限的标注数据时,LLM比微调模型更可取,并且当有大量标注数据可用时,两者都可能是合理的选择,具体取决于特定的任务要求。
3)建议选择在类似于下游任务的数据场上预训练的模型。

在NLP应用中采用LLM或者微调模型的一些决策流如图:

在这里插入图片描述

模型方面的提示:

在传统的自然语言理解任务中,微调模型通常是比LLM更好的选择,但LLM可以在需要强大泛化能力的同时提供帮助。由于其强大的生成能力和创造力,LLM在大多数生成任务中表现出优势。

LLM因其庞大的现实世界知识而在知识密集型任务中表现出色。

当知识要求与所学知识不匹配时,或者只需要上下文知识时,LLM会比较难,在这种情况下,微调模型可以像LLM一样工作。

LLM的规模化(例如参数,训练计算等)可以极大地增强预训练语言模型的能力。随着模型规模化,模型通常会在一系列任务中变得更有能力。在某些指标中,性能显示出与模型尺度的幂律关系(power-law)。例如,用于衡量语言建模性能的交叉熵损失随模型尺度的指数增长而线性减少,这也称为“规模化定律” [41, 47]。对于一些关键能力,例如推理,规模化模型已逐渐将这些能力从非常低的状态转变为可用状态,甚至接近人类的能力。

模型规模化方面的提示:

1)随模型规模的指数级增长,LLM变得特别有能力推理,如算术推理和常识推理。
2)随LLM规模的扩大,新能力成为偶然的用途,例如单词操作能力和逻辑能力。
3)许多情况下,由于大语言模型的能力随规模而变化的理解有限,因此性能不会随规模而稳步提高。

推理用例。推理涉及理解信息、推断和做出决定,是人类智力的基本方面之一。这对NLP来说是具有挑战性的。许多现有的推理任务可以分为常识推理和算术推理。

算术推理/解决问题。LLM的算术推理能力从模型大小的规模中受益匪浅。对于 GPT-3,只有当参数量超过 13B 时,两位数加法的能力才会变得明显 [16]。测试算术推理的任务对人类来说是微不足道的,旨在挑战将自然语言转换为数学符号和多步推理的能力。在GSM8k [26],SVAMP [79]和AQuA [61]上,LLM作为通才(generalist),与大多数特定任务设计的方法相比是有竞争力的。GPT-4 的性能优于任何其他方法 [76],甚至是一些专门针对算术问题调整的大模型 [104]。然而,应该注意的是,如果没有外部工具的干预,LLM在执行基本计算时偶尔可能会犯错误,尽管思维链(CoT)的提示工作[115]可以提高LLM的计算能力。

常识推理。常识推理不仅要求LLM记住事实知识,而且还要求LLM对事实进行几个推理步骤。常识推理随模型大小的增长而逐渐增加。与微调模型相比,LLM在大多数数据集上保持优势,例如StrategyQA [36]和ARC-C [25]。特别是 ARC-C ,其中包含 3 - 9 年级科学考试中的难题,GPT-4 的表现已接近 100% (96.3%) [76]。

具有涌现的用例。模型的规模化还赋予模型一些前所未有的、超越幂律规则的奇妙能力。这些能力被称为“涌现能力”。如[113]所定义,LLM的涌现能力是小规模模型中不存在但存在于大规模模型中的能力。这意味着无法通过推断较小规模模型的性能改进来预测这种能力,并且一旦规模超过某个范围,模型就会在某些任务上突然获得良好的性能。涌现能力通常是不可预测和令人惊讶的,导致任务随机或意外涌现。

处理单词操作是一种典型的涌现能力。指的是学习符号操作的能力,例如颠倒的单词[16],其中模型被赋予一个反向拼写的单词,并且必须输出原始单词。

例如GPT-3 [16] 显示单词排序和单词解密任务的涌现能力。PaLM [22] 展示 45 ASCII 单词识别和超棒任务的涌现能力。语言模型的逻辑能力往往会随模型的规模化而显现,例如逻辑演绎、逻辑序列和逻辑网格谜题。此外,其他任务,如高级编码(例如,自动调试,代码行描述)和概念理解(例如,新概念,简单的图灵概念),也是具有大语言模型新能力的用例。

其他方面的提示:

1)微调模型或指定模型在与LLM预训练目标和数据相去甚远的任务中仍有其存在空间。
2)LLM擅长模仿人类,数据标注和生成。还可用于NLP任务的质量评估,并具有可解释性等奖励。
现实世界“任务”中的使用。松散地使用术语“任务”,因为现实世界的场景通常缺乏像学术界那样格式良好的定义。许多模型的请求甚至不能被视为 NLP 任务。模型在现实世界中面临从三个角度的挑战:

嘈杂/非结构化输入。现实世界的输入来自现实世界非专家方面。如何与模型交互知之甚少,甚至无法流利地使用文本。因此,现实世界的输入数据可能很混乱,包含拼写错误、口语和混合语言,与用于预训练或微调那种格式良好的数据不同。

学术界未正式确定的任务。在现实世界的场景中,学术界通常定义不清,并且比学术环境中的任务更加多样化。用户经常提出不完全属于预定义类别的查询或请求,有时多个任务位于单个查询中。

遵循用户说明。用户的请求可能包含多个隐意图(例如,对输出格式的特定要求),或者如果不提后续问题,期望的预测可能不清楚。模型需要了解用户意图,并提供与这些意图一致的输出。

从本质上讲,现实世界中的这些挑战来自于用户的请求,与特定任务设计的任何NLP数据集的分布有很大偏差。公共NLP数据集不能反映模型如何使用的[77]。

现实世界的提示:

与微调模型相比,LLM 更适合处理现实世界的场景。然而,评估模型在现实世界中的有效性仍然是一个悬而未决的问题。

尽管LLM适用于各种下游任务,但还有其他一些因素需要考虑,例如效率和可信度。对效率的讨论包括 LLM 的训练成本、推理延迟和参数高效调优策略。同时,对可信度的检查包括稳健性和校准性、公平性和偏见、潜在的虚假相关性以及LLM的安全性挑战。

其他考虑因素的提示:

(1)应考虑轻量级、局部微调的模型而不是LLM,特别是对于那些成本敏感或具有严格延迟要求的人。参数高效调优可能是模型部署和交付的可行选项。
(2)LLM的零样本方法禁止从特定于任务的数据集中学习捷径,这在微调模型中很普遍。尽管如此,LLM仍然表现出一定程度的捷径学习问题。
(3)与LLM相关的安全问题应放在首位,因为潜在的有害或偏见输出,LLM的幻觉(hallucination)可能导致严重后果。一些方法(如人工反馈)在缓解这些问题方面表现出改进的希望。

LLM的未来挑战:

在现实世界的“数据集”上评估模型。现有的深度学习模型主要是在标准的学术数据集评估,例如ImageNet,这是深度学习发展的里程碑。然而,标准学术数据集的局限性不能准确反映现实世界的表现。随着模型的发展,在反映现实世界需求的多样化、复杂和现实的数据上评估它们至关重要。除了学术模型之外,在现实世界的“数据集”上评估模型将提供对其能力更严格的测试,更好地了解在实际应用中的有效性。这确保模型能够应对现实世界的挑战并提供实用的解决方案。

模型对齐。确保日益强大和自主的模型符合人类价值观和倾向性,这个至关重要。必须开发出方法来保证这些模型按预期运行,并且不会针对不良结果进行优化。从模型开发过程的开始,集成对齐技术至关重要。模型透明度和可解释性也是评估和确保一致性的重要因素。此外,当展望未来时,一个更加艰巨的挑战迫在眉睫:协调超人(super human)系统。虽然这项任务目前超出要求,但重要的是要考虑并准备调整这些先进系统的潜在影响,因为这些可能会带来独特的复杂性和道德问题[8,15]。

安全对齐。虽然讨论人工智能存在的风险很重要,但需要具体的研究来保证先进人工智能的安全发展。这包括可解释性、可规模化的监督和治理以及模型属性的形式验证技术。安全不仅应被视为附加组件,还应被视为模型构建过程中不可或缺的一部分。

规模化的性能预测。很难预测随模型大小和复杂性的急剧增加,模型性能将如何变化。开发方法在规模化后或开发新架构时更好地预测模型性能,允许更有效地利用资源并加快进度。一些可能性包括:训练较小的“种子”模型并推断其增长,模拟增加规模或模型调整的影响,以及在不同规模对模型的迭代进行基准测试以建立规模化定律。这些甚至可以在构建模型之前提供对模型性能的洞察。

  • 24
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值