【LLM】综述：大语言模型的持续学习

最新推荐文章于 2025-04-13 16:14:23 发布

原创最新推荐文章于 2025-04-13 16:14:23 发布

· 1.9k 阅读

24 ·

版权

文章标签：

#语言模型 #学习 #人工智能 #自然语言处理 #深度学习 #算法 #langchain

一、结论写在前面

持续学习具有重要意义，可以定期有效地更新大语言模型，使其与不断变化的人类知识、语言和价值观保持同步。论文展示了大语言模型中持续学习的复杂、多阶段过程，包括持续预训练、指令调优和校准，这种范式比用于小型模型的持续学习更复杂。作为第一篇全面探讨大语言模型中持续学习的综述，论文按学习阶段和信息类型对更新进行分类，深入理解如何在大型语言模型中有效实施持续学习。通过讨论主要挑战和未来工作方向，论文的目标是提供大语言模型持续学习近期发展的全面概述，为更先进和可适应语言模型的开发提供启发。

二、论文的简单介绍

2.1 背景

2.1.1 持续学习

持续学习注重开发学习算法来累积非稳定数据上的知识，这些数据通常由类别、任务、域或实例划分。在监督持续学习中，一系列任务以流式方式到达。每个任务包含一个独立的目标数据集。一个单一的模型需要顺序地适应它们，在第t个任务中只能访问Dt。这种设置要求模型在其整个生命周期中获取、更新、累积和利用知识。传统持续学习需要解决的主要挑战是灾难性遗忘，即当用新数据训练时，模型在旧任务上的性能大大下降。现有的研究可以粗略地分为三个类别，例如经验重播方法，基于正则化的方法和动态架构方法。最近，研究人员设计了一些混合方法，利用上述技术的优势。

2.1.2 大语言模型的持续学习

大型语言模型的持续学习旨在使大型语言模型能够随着时间的推移从持续的数据流中学习。尽管很重要，但直接将现有的持续学习设置应用于大型语言模型并非易事。论文现在为大型语言模型的持续学习提供了一个前瞻性的框架，然后提出了该领域研究的分类。

框架：论文为大型语言模型的持续学习设计的框架如图2所示。论文将大型语言模型的持续学习与不同的训练阶段相结合，包括持续预训练(CPT)、持续指令调优(CIT)和持续校准(CA)。持续预训练阶段旨在自主监督地进行一系列语料库上的训练，以丰富大型语言模型的知识并适应新领域。持续指令调优阶段在监督的指令遵循数据流上微调大型语言模型，旨在让大型语言模型遵循用户的指令，同时将获得的知识转移到后续任务中。为应对不断变化的人类价值观和偏好，持续校准(CA)试图随时间连续校准大型语言模型与人类价值观。尽管可以在每个阶段顺序地对大型语言模型进行持续学习，但持续学习的迭代应用也使得在不忘记从前阶段学习的能力和知识的情况下，在阶段之间进行转移至关重要。例如，论文可以在经过指令调优的模型或校准过的模型的基础上进行持续预训练。但是，论文不希望大型语言模型失去遵循用户指令和与人类价值观保持一致的能力。因此，如图2所示，论文使用不同颜色的箭头来显示阶段之间的迁移。

分类：为了更好地理解这个领域的研究，论文为框架的每个阶段提供了细致的分类。

持续预训练(Continual Pre-training，CPT)

用于更新事实的CPT包括适应大型语言模型以学习新事实知识的工作。
用于更新领域的CPT包括定制大型语言模型以适应医学和法律等特定领域的研究。
语言扩展的CPT包括扩展大型语言模型支持的语言的研究。

持续指令调优(Continual Instruction Tuning，CIT)

任务增量CIT包含在一系列任务上微调大型语言模型并获得解决新任务的能力的工作。
领域增量CIT包含在指令流上微调大型语言模型以解决特定领域任务的方法。
工具增量CIT包含持续教大型语言模型使用新工具解决问题的研究。

持续校准(Continual Alignment，CA)

持续价值校准包括持续校准大型语言模型以遵守新的伦理指南和社会规范的研究。
持续偏好校准包括适配大型语言模型以动态匹配不同人类偏好的工作。

除了根据训练阶段对方法进行分类之外，论文还根据持续学习过程中更新的信息提供了另一种分类方法。在表2中，论文列出了一些更新大型语言模型的代表性信息，例如事实、领域、任务、价值观和偏好。根据大型语言模型的训练目标，这些信息可以在大型语言模型持续学习的不同阶段中更新。图3中的分类法显示了论文的分类方案以及每个类别中的最近代表性工作。

定期更新大语言模型以准确反映不断发展的人类知识、价值观和语言模式至关重要，这就需要研究大语言模型的持续学习。尽管持续学习与其他模型改进策略如增强生成的检索(retrieval-augmented generation，RAG)和模型编辑(model editing)等有些相似之处，但其主要目的不同(表1)。与这些策略不同，这些策略的主要关注点在于提高特定领域的准确性或扩展模型的事实知识库，持续学习旨在增强大语言模型的整体语言和推理能力。这种区别至关重要，因为它将焦点从仅仅更新信息转移到以更全面和细致的方式开发模型的语言处理和生成能力。

2.2 持续预训练(CPT)

大语言模型的持续学习也不同于其在较小模型(包括较小的预训练语言模型)中的使用。由于其参数量巨大和复杂性，大语言模型需要采用多方面方法进行持续学习。论文将其分类为三个不同的阶段：

即持续预训练以扩展模型对语言的基本理解
持续指令调优以提高模型对特定用户命令的响应
以及持续校准以确保模型输出遵循价值观、伦理标准和社会规范

与用于较小模型的更线性适应策略相比，这一多阶段过程与用于大型语言模型的过程明显不同，如图1所示，突出了将持续学习应用于大语言模型的独特挑战和需求。

在大型语言模型中进行持续预训练对于保持大型语言模型的相关性和有效性至关重要。这个过程涉及定期使用最新信息更新模型，将它们适配到特定领域，增强它们的编码能力，并扩展它们的语言范围。通过CPT，大型语言模型可以与新发展保持同步，适应不断变化的用户需求，并在各种应用中保持有效。持续预训练确保大型语言模型不仅知识丰富，而且还能适应和响应变化的世界。

2.2.1 用于更新事实的CPT

大型语言模型集成和适应最近信息的能力至关重要。这里的关键策略是采用动态数据集，这些数据集便于从新闻源，学术文章和社交媒体等各种来源实时汇编数据。有人提出了ERNIE 2.0，这是一个持续预训练框架，它通过增量构建和学习多个任务，以最大限度地从训练数据中提取知识。引入了持续知识学习，这是一种更新大型语言模型中时间知识的方法，在获取新信息的同时减少遗忘。有研究表明，与整个快照的训练相比，持续学习具有不同数据的语言模型取得了可比或更好的困惑度，这确认了语言模型中的实际知识可以通过最小的训练数据有效更新。这个过程中的关键是实施对新获取数据的自动验证系统，以确保信息的准确性和可靠性。

2.2.2 用于更新领域知识的CPT

持续预训练通过两种方法更新领域知识:1)领域增量预训练在多个领域之间累积知识，2)特定领域的持续学习，它通过在特定领域的数据集和任务上训练将一个通用模型转化为领域专家：

在领域增量预训练中，[Cossu等，2022]研究了如何在新的语言和视觉数据流上持续预训练模型，以备各种下游任务。
[Qin等，2023b]通过参数初始化和知识蒸馏检查了模型兼容性和可回收调优的优势，以研究持续再训练。
[Ke等，2023] 提出了一个软遮蔽机制来用领域语料库更新语言模型，旨在在保留通用知识的同时提高性能。
对于特定领域的持续学习，[Xie等，2023]通过面向金融领域的域自适应预训练开发了FinPythia-6.9B。
EcomGPT-CT [Ma等，2023]研究了电子商务领域持续预训练的效果。这些研究共同突出了持续预训练不断发展的格局，证明其在广泛领域内提高模型适应性和专业性的有效性。

2.2.3 语言扩展的CPT

扩大大型语言模型能够理解和处理的语言范围对于确保更广泛的可访问性至关重要[Castellucci等，2021]。这种扩展不仅仅是包括更广泛的语言 Variety，特别是代表性不足的语言，而且还要将文化背景嵌入语言处理中。

这里的一个重大挑战是模型识别和解释区域方言和当代行话的能力[Gogoulou等，2023]，这对于跨不同种族、社会和文化群体进行有效和相关的交流至关重要。除了掌握自然语言之外，大型语言模型在理解和生成编程语言方面也取得了重大进步。

[Yadav等，2023]引入了CodeTask-CL，这是一种涵盖多种任务的持续代码学习基准，具有跨不同编程语言的各种输入和输出格式的特征。

[Zan等，2022]探索了使用无标签代码语料库对面向库的代码生成进行模型训练，以解决由于程序员广泛重用库导致的稀缺文本-代码对的挑战。他们引入了CERT，这是一种方法，其中“绘制者”概述代码结构，“生成器”完成它，两者都在无标签数据上持续预训练以捕获库focal代码片段中的常见模式。

这些发展突出了大型语言模型改变自然语言和编程语言处理的潜力，导致更高效的编码实践。

2.3 持续指令调优(CIT)

大型语言模型展示了极好的指令遵循能力，可以用几次提示完成不同的任务。持续指令调优(CIT)涉及不断微调大型语言模型以学习如何遵循指令和为未来任务传递知识[Zhang等，2023e]。根据指令调优期间更新的能力和知识，论文可以进一步将CIT细分为三类:1)任务增量CIT，2)领域增量CIT和3)工具增量CIT。

2.3.1 任务增量CIT

任务增量持续指令调优(任务增量CIT)旨在持续在一系列特定任务的指令上微调大型语言模型，并获得解决新任务的能力。

一个直接的解决方案是持续为新任务生成指令调优数据，并直接在其上微调大型语言模型[Wang等，2023b]。
然而，研究显示，在特定任务的数据上持续微调大型语言模型会导致学到的知识和以前任务中的问题解决技能的灾难性遗忘[Kotha等，2023]。TAPT [Gururangan等，2020] 提出了一个简单的数据选择策略，该策略从域内语料库中检索未标注的文本，并将其与任务分布对齐。然后利用检索到的文本微调大型语言模型，防止灾难性遗忘，增强参数性能。
为了减轻灾难性遗忘，Contunual-T0 [Scialom等，2022] 采用带有记忆缓冲区[Shin等，2017]的复习来存储以前任务的数据并在训练期间重播它们。
ConTinTin [Yin等，2022] 提出了InstructionSpeak，它包括两种策略，可以充分利用任务指令来改善正向传递和反向传递。第一种策略涉及学习负输出，而第二种策略则关注重新审视以前任务的指令。
RationaleCL [Xiong等，2023] 进行对比推理重放来减轻灾难性遗忘。DynaInst [Mok等，2023] 提出了一种混合方法，结合了动态指令重放和诱导局部极小的正则化器。这两种组件增强了大型语言模型的泛化能力，并减少了重放模块中的内存和计算使用。
与以前的基于重放或基于正则化的方法不同，SLM [匿名，2024b] 将向量空间检索整合到语言模型中，这有助于实现可扩展的知识扩展和管理。这使得大型语言模型能够快速适应新任务，而不会因灾难性遗忘而降低性能。具有数十亿参数的大型语言模型为进行持续学习带来了巨大的计算负担。
为解决这个问题，渐进提示技术[Razdaibiedina等，2023] 冻结了大多数参数，并且只为每个新任务学习固定数量的标记(提示)。渐进提示极大地降低了计算成本，同时减轻了灾难性遗忘，并改善了知识向未来任务的传递。
ELM[Jang等，2023] 首先在大型语言模型之上为每个任务训练一个小的专家适配器。然后，它采用基于检索的方法为每个新任务选择最相关的专家大型语言模型。
基于参数高效调优(PET)框架，OLoRA [Wang等，2023a] 为CIT提出了正交低秩适配。O-LoRA在正交子空间中增量学习新任务，同时固定从过去任务中学到的LoRA参数，以最小化灾难性遗忘。
类似地，DAPT [Zhao等，2024] 提出了一个新的双注意力框架，通过双注意力学习和选择模块对LoRA参数的学习和选择进行校准。
LLaMA PRO [Wu等，2024] 提出了一种新的块扩展技术，这使得向大型语言模型注入新知识并通过高效的训练后保留初始功能成为可能。

2.3.2 领域增量CIT

领域增量持续指令调优(领域增量CIT)旨在在一系列特定领域的指令上持续微调大型语言模型，并获得解决新领域任务的知识。

TAPT [Gururangan等，2020] 在一系列特定领域的数据(包括生物医学、计算机科学、新闻和购物评论)上自适应调谐大型语言模型。然后，它在每个领域评估大型语言模型的文本分类能力。
ConPET [Song等，2023] 将最初为较小模型开发的以前的持续学习方法应用于大型语言模型，使用PET和动态重放策略。这种方法显著降低了调优成本，并减轻了过度拟合和遗忘问题。在新知识类型逐渐出现的典型持续学习场景中进行的实验证明了ConPET的卓越性能。
AdaptLLM [Cheng等，2023a] 通过将原始训练语料库丰富为与其内容相关的一系列阅读理解任务，将大型语言模型适配到不同的领域。这些任务旨在帮助模型在增强提示性能的同时利用特定领域的知识。
PlugLM [Cheng等，2023b] 使用可微分的插件内存(DPM)来显式存储领域知识。通过插接领域内存，可以轻松地将PlugLM适配到不同的领域。
[Zhang等，2023c] 设计了一个适应-检索-修订过程，将大型语言模型适配到新领域。它首先使用初始大型语言模型的响应从领域数据库中检索知识。检索到的知识用于修订初始响应并获得最终答案。
[Dong等，2023] 分析了在不同领域上连续调谐的大型语言模型，发现训练数据的顺序对大型语言模型的性能有重大影响。他们还提供了混合微调(DMT)策略，以在不同领域学习多种能力。

2.3.3 工具增量CIT

工具增量持续指令调优(工具增量CIT)旨在持续微调大型语言模型，使其能够与现实世界互动，并通过集成工具(如计算器、搜索引擎和数据库)来增强其能力[Qin等，2023a]。

随着诸如高级软件库、新API或特定领域实用程序等新工具的快速出现[Liang等，2023; Jin等，2023]，持续更新大型语言模型以使其能够快速适应和掌握这些新工具的需求日益增长。

Llemma [Azerbayev等，2023] 在混合了数学相关文本和代码的数据集上继续调谐大型语言模型，以使大型语言模型能够通过使用外部工具来解决数学问题。

ToolkenGPT [Hao等，2023] 将每个工具表示为一个新的标记(toolken)，其嵌入在指令调优期间学习。这种方法为大型语言模型提供了高效掌握工具和通过添加额外标记快速适应新工具的方式。

2.4 持续校准(CA)

大型语言模型需要适应不断变化的社会价值观、社会规范和伦理指南。此外，在不同人口统计群体以及个人随时间变化的偏好之间存在实质性的差异。响应这些变化的需求引发了持续校准。在持续校准的背景下，出现了两种情况:(i) 更新大型语言模型以反映社会价值观的转变的要求和(ii) 将新人口统计群体或价值观类型整合到现有大型语言模型中，论文将在以下小节中描述。

2.4.1 持续价值校准

持续价值校准旨在持续纳入伦理指南或适应文化敏感性和规范。它需要更新以忘记过时的观念并纳入新价值观，类似于模型编辑和无学习任务。模型编辑和知识无学习已在预训练和指令调优阶段进行了研究[Yao等，2023];然而，它们还没有在偏好学习中被探索。

2.4.2 持续偏好校准

添加新人口统计群体或价值观类型与持续学习问题保持一致，旨在在生成与新兴价值观一致的响应的同时，指导大型语言模型遵循以前学习的偏好。例如，许多开源校准大型语言模型采用人类反馈强化学习(RLHF)来确保安全性。论文可能希望将大型语言模型对额外属性(如有用性和忠实度)进行校准。除了在学习新偏好的同时保留过去偏好的挑战之外，持续偏好学习在大动作空间(词汇表)和大量参数的稳定高效训练中也面临困难。以前的工作已经证明了这样的代理的概念验证。然而，缺乏标准化基准来系统地评估新偏好随时间的学习能力。

持续近端策略优化(CPPO)[匿名，2024a] 在近端策略优化(PPO)算法[Schulman等，2017]上利用样本加权来平衡策略学习和知识保留，以模仿旧策略输出。

另一方面，[Zhang等，2023a] 通过采用蒙特卡洛估计来推导给定任务序列的最优策略序列，并将它们并入新任务上的策略学习中，将直接偏好优化(DPO)算法[Rafailov等，2023]扩展到持续学习设置。

2.5 基准

系统评估大型语言模型的持续学习性能需要具有高质量数据源和丰富内容的基准。下面论文总结了值得注意的基准数据集。

2.5.1 CPT的基准

TemporalWiki [Jang等，2022a] 作为一个终身基准，使用维基百科和维基数据的连续快照训练和评估语言模型，有助于评估语言模型随时间保留过去知识和获取新知识的能力。

额外的社交媒体数据集如Firehose [Hu等，2023] 包含100万用户6年内的1亿条推文。CKL [Jang等，2022b] 关注网络和新闻数据，旨在在持续预训练不同语料时保留初始预训练中的时间不变的世界知识，同时有效学习新知识。

TRACE [Wang等，2023b] 包括8个不同的数据集，涵盖专业领域、多语言任务、代码生成和数学推理。这些数据集被统一为标准格式，以方便直接和自动评估大型语言模型。由于数据的快速变化性质，敏感时间的数据集很快就会过时，这需要频繁更新持续预训练基准以评估模型。

2.5.2 CIT的基准

持续指令调优基准(CITB)[Zhang等，2023e] 基于SuperNI，包含超过1600个自然语言处理(NLP)任务，跨越76种类型，如语言生成和分类，全部以文本到文本的格式。

ConTinTin [Yin等，2022]，另一个来自NATURAL-INSTRUCTIONS的基准，包含6大类中的61个任务，如问题生成和分类。在使用这些基准评估无法访问其训练数据的黑盒语言学习模型时，数据集的选择至关重要，以避免任务污染并确保持续指令调优中可靠的性能评估。

2.5.3 CA的基准

COPF [Zhang等，2023a] 使用斯坦福人类偏好(SHP)[Ethayarajh等，2022]和有益无害(HH)数据集[Bai等，2022]等数据集进行持续校准实验。

SHP数据集包括18个主题(从烹饪到法律建议)的385，000个人类偏好。HH数据集由两部分组成:一部分是众包工人与AI模型互动以获得有用的响应，另一部分是他们引出有害的响应，在每种情况下选择更有影响力的响应。

尽管这个领域的兴趣日益增长，但缺乏专门的持续校准基准，这为这个领域的未来研究和开发提供了机会。

2.6 评估

2.6.1 目标任务序列的评估

大型语言模型的持续学习涉及评估模型在任务序列上的性能。性能可以通过三种典型的持续学习指标来衡量:(1) 平均性能;(2) 正向传递率(FWT)和(3) 反向传递率(BWT)[Lopez-Paz和Ranzato，2017; Wu等，2022]:

(1) FWT评估从以前的任务中获得的知识对执行新任务的初始能力的影响，在专门针对该新任务的任何训练之前。

(2) BWT通过比较模型在学习新任务之前和之后对旧任务的性能来测量灾难性遗忘。

(3) 平均性能，例如平均精度评估模型或算法随时间对一系列数据流或任务进行有效学习和适应的能力。

2.6.2 跨阶段遗忘的评估

在不同阶段上持续训练的大型语言模型可能会遇到无意识遗忘的问题[Lin等，2023]，这表明持续指令调优可以侵蚀大型语言模型的通用知识。

此外，前期研究[Qi等，2023]还表明，经过指令调优后，安全校准的大型语言模型的行为很容易受到影响和退化。

为了量化这些局限性，TRACE [Wang等，2023b] 提出通过使用三种新指标来评估大型语言模型:通用能力差值(GAD)、指令遵循差值(IFD)和安全差值(SD):

(1) GAD评估大型语言模型在顺序目标任务训练后对通用任务的性能差异。

(2) IFD评估模型的指令遵循能力在顺序不同任务训练后的变化。

(3) SD评估模型响应在顺序训练后的安全性变化。

初始大型语言模型在第i项任务上的基线性能由R0，i表示。在增量学习到第t项任务后，第i项任务的得分变为Rt，i。RG、RI和RS分别代表大型语言模型在通用任务(评估从预训练获得的信息)、指令遵循任务和校准任务上的表现。这些指标测量大型语言模型在持续学习后的整体能力、遵循指令的程度和安全性的变化，通过关注维持固有技能和与人类偏好保持一致来超越传统基准。

2.7 挑战和未来工作

计算高效的持续学习：在计算效率方面，重点是在最小化计算资源的情况下增强持续预训练过程[Verwimp等，2023]。这涉及开发创新架构，能够处理预训练任务的日益增长的复杂性，而无需计算需求成比例增加。算法和数据结构的效率变得至关重要，特别是在管理预训练中涉及的大量数据方面。此外，节能学习模型对于可持续扩展大型语言模型至关重要，与绿色AI计划保持一致。这个领域需要在计算成本与模型性能和能力方面的利益之间取得平衡。

社会效益持续学习：持续学习中的社会责任包括确保隐私和数据安全，特别是在持续指令调优的背景下[Gabriel，2020]。随着大型语言模型在更具体的指令或任务上进行微调，必须以安全和道德的方式管理敏感或个人数据。与人类价值观和文化保持一致也至关重要，特别是在持续偏好学习领域。这涉及将伦理AI原则和文化敏感性纳入其中，以确保模型输出与社会规范和价值观一致。

自动持续学习：一个重大挑战在于创建能够自主监督其学习过程的系统，无缝地适应新任务(指令调优)和用户偏好(校准)，仅依靠大型语言模型的固有能力，而无需人工干预[Qiao等，2024]。自动持续学习包括能够协作学习的多智能体系统和可以根据性能反馈自动调整学习策略的自我规划算法。这样的系统将代表大型语言模型自治的重大进步。

可控遗忘的持续学习：可控遗忘特别适用于持续预训练。随着模型接触新数据流，能够选择性地保留或遗忘信息可以防止灾难性遗忘[Qi等，2023]，并增强模型的适应能力[Wang等，2023b]。这个挑战也延伸到管理错误信息和无学习不正确或过时的信息[Chen和Yang，2023]，随着时间的推移确保大型语言模型的准确性和可靠性。

带历史跟踪的持续学习：有效的历史跟踪对于理解大型语言模型通过预训练、指令调优和偏好学习阶段的演变至关重要。在模型参数中管理历史记录和使用外部内存体系结构可以帮助跟踪过去学习对当前模型行为和决策的影响[Mialon等，2023]。这对于分析持续学习过程的有效性和做出明智的调整至关重要。

大型语言模型持续学习的理论见解：众多评估研究已经检查了跨阶段遗忘的问题[Lin等，2023]，并证明了对齐大型语言模型的稳健性较弱[Qi等，2023]。然而，多阶段训练如何影响大型语言模型在后续持续学习任务中的表现的理论分析非常稀缺。这一差距凸显了深入理解多阶段训练为大型语言模型的学习能力和长期性能带来的具体变化的必要性。

本综述与以往的研究有所不同，具有独特的关注点和结构。虽然该领域的以前的综述通常围绕各种持续学习策略组织，但论文的研究是首次专门针对大型语言模型的持续学习进行分析。论文根据涉及大型语言模型的学习类型和不同阶段对论文的分析进行结构化。本综述从如何将持续学习应用于大型语言模型的具体角度提供了一个详细而新颖的视角，概述了这种应用的具体挑战和机遇。论文的目标是对有效实施大型语言模型中的持续学习提供全面理解，以有助于未来更先进和可适应的语言模型的发展。

论文标题：Continual Learning for Large Language Models: A Survey

论文链接：https://arxiv.org/pdf/2402.01364.pdf

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用

对于0基础小白入门：