大模型微调过程中如何避免灾难性遗忘？【大模型行业应用落地系列】

最新推荐文章于 2025-01-15 10:48:04 发布

雪碧没气阿

最新推荐文章于 2025-01-15 10:48:04 发布

阅读量2.8k

点赞数 20

文章标签：人工智能大语言模型大模型微调大模型应用落地计算机技术 ai大模型 AGI

本文链接：https://blog.csdn.net/xxue345678/article/details/140035761

版权

● 大模型微调过程中如何避免灾难性遗忘？

【议题说明】 预训练大语言模型在训练过程中，使用了海量的跨领域数据，使其在语言理解和生成等多种任务具备非常出色的处理能力，某些任务接近甚至超过人类。

随着人们对大模型能力的验证和认识不断加深，越来越多地融入我们的日常应用。不同行业企业用户也在尝试多种的应用场景，逐步扩大对大模型的应用。我们期待它们在领域知识、多语言、处理复杂任务和使用工具等能力上都能够更上一层楼。但实际上，大模型在处理企业任务时往往只能达到企业“实习生”、“试用期员工”的水平，要达到企业“正式工”的水平，往往需要针对该任务进行“培训上岗”，即大模型微调训练。如果每次都为新技能重新去做预训练，成本过于高昂，所以如何增量地增强大模型成为大家关心的一个方向。

不过，微调过程中往往会出现“灾难性遗忘”(catastrophic forgetting) 现象，即当模型学习了一个新的任务后，可能会忘记之前学到的知识，或其他方面能力指标下降。这种现象可能会限制微调后模型在综合性较强的应用中的通用性和可扩展性。

【议题主持人】邓俊峰某银行 AI技术经理： 大模型技术已经被许多带着创新精神、也具备较强技术实力的企业引入研究并应用。但由于大模型在预训练时缺乏领域数据，往往在一些垂直领域中表现不理想，这时就需要企业研发部门的算法专家对大模型使用增量预训练和微调等方法，来提高模型的领域能力。从活跃在社区的一众人工智能算法专家、架构师的回复来看，大家都已经对大模型微调等任务有了有较丰富的实践经验和较深的认知，也引用不少业界前沿和研究论文的主流观点，值得我们好好学习。

许小龙某金融企业大模型工程师：

企业可以通过多种技术和方法的组合来提升大模型在特定任务上的性能，同时尽量减少对其他能力的负面影响。

大模型微调过程中出现的灾难性遗忘是一个值得关注的问题。灾难性遗忘发生在模型在适应一个新任务的过程中忘记了先前学习任务的知识。这对于希望模型能够处理多种任务的企业来说，无疑是一个障碍。幸运的是，有一些方法和技巧可以帮助缓解这个问题。

1.低秩适应（LoRA）：这是一种高效的微调技术，它通过将原始权重矩阵分解为两个较小的矩阵来降低计算成本，从而提高计算效率。LoRA的目标是在提高特定任务性能的同时保持模型的通用性和灵活性。虽然LoRA在某些情况下也表现出灾难性遗忘的现象，但它仍然是处理复杂和多变语言任务的一个有力工具。

2.持续学习：从持续学习的角度来看，可以使用增量学习或重新蒸馏技术来减缓灾难性遗忘。这意味着在微调新任务时，模型会试图整合新知识而不完全忘记旧知识。

3.O-LoRA方法：为了解决灾难性遗忘问题，Orthogonal Subspace Learning for Language Model Continual Learning提出了O-LoRA方法。O-LoRA将梯度更新约束在与过去任务梯度子空间正交的方向上，从而防止与过去任务的损失函数产生干扰。这种方法有助于避免过去任务的遗忘，因为它是在正交子空间中逐步学习新任务，同时固定从过去任务中学到的LoRA参数。

4.NEFTune方法：NEFTune通过在训练阶段向嵌入层加入一个从均匀分布采样的噪声来避免过拟合的出现，从而提高模型的性能。这种方法也可以帮助缓解灾难性遗忘问题。

5.EMA（Exponential Moving Average）和Mean Teacher：这两种技术结合起来可以作为模型微调的稳定性策略，EMA通过计算模型权重的移动平均值来稳定模型更新，而Mean Teacher则是在训练过程中维护一个教师模型，其参数是学生模型参数的指数移动平均，这样可以在训练过程中提供一个稳定的模型表示，有助于缓解灾难性遗忘。

6.Early Stopping：在微调过程中适时停止训练，可以防止模型过度适应新任务而导致遗忘旧任务。

7.数据增强和迁移学习：这些方法可以帮助模型更好地泛化到新任务，同时保持对原有任务的理解和记忆。

8.类别加权损失函数：在长尾数据分布的情况下，传统的损失函数可能偏向于优化多数类别的预测性能，而忽视了少数类别。使用类别加权损失函数可以平衡不同类别的权重，提高少数类别的预测性能。

总的来说，企业可以通过多种技术和方法的组合来提升大模型在特定任务上的性能，同时尽量减少对其他能力的负面影响。这包括使用LoRA、O-LoRA、NEFTune等方法，结合EMA、Mean Teacher和Early Stopping等策略，以及在必要时采用数据增强和迁移学习技术。通过这些努力，可以最大限度地发挥大模型在处理多业务功能需求方面的潜力。

石聪某股份制银行 AI算法工程师：

通过合理的数据和技术组合，可以在提升模型在特定任务上的表现的同时，保持其在其他任务上的能力。

在进行大模型微调的过程中，确实存在着灾难性遗忘的问题，即模型在特定领域数据上的性能得到提升的同时，可能会导致对于其他能力的损失。为了在提升模型在特定任务上的表现而不牺牲其它能力，可以采取以下策略和技术组合：

在数据方面，一种方法是结合使用原始模型训练时所用的数据和特定领域的数据进行微调。这种方法虽然成本较高，但可以有效地维持模型的泛化能力。另外，通过对不同类别的数据进行采样训练，也可以提升模型的泛化性能，从而减轻灾难性遗忘的影响。

在微调技术的选择上，可以通过调整微调过程中参数的权重，减少对原始模型参数的影响。这种方法可以在一定程度上保护原始模型的能力，避免因为微调而导致的能力下降。

综上所述，通过合理的数据和技术组合，可以在提升模型在特定任务上的表现的同时，保持其在其他任务上的能力，这对于需要处理多种业务功能的企业而言具有重要的意义。

朱祥磊山东移动系统架构师：

使用外挂知识库，可以避免灾难性遗忘。

在微调大模型时。为了避免灾难性遗忘，有几种策略可以考虑：

使用所有已知数据重新训练：简单而有效的方法，但重新训练模型可能需要大量的时间和计算资源。

增量学习：增量学习是一种策略，它试图在有限的计算和存储资源下平衡稳定性和可塑性。其目标是在新任务上逐渐适应现有模型，同时保留以前学习的知识。

知识蒸馏：这是一种训练更小、更快速、更轻量的模型的技术，同时从大模型中获取知识。

使用冻结部分权重：这种方法通过只更新部分网络权重来防止灾难性遗忘。例如，LoRA是一种权重冻结的方法，只学习部分网络权重。

使用动态网络：这种方法允许模型在某些任务上改变其结构或参数，以适应新的任务。

集成学习：集成方法通过结合多个模型来提高预测的稳定性和准确性。这种方法也可以帮助防止灾难性遗忘，因为它允许模型在新任务上适应现有模型，同时保持以前学习的知识。

基于外挂知识库：避免大量微调。

以上策略可以单独或结合使用，以防止灾难性遗忘。具体使用哪种策略取决于具体的应用场景和需求。

国宏国金证券 AI算法工程师：

综合运用多种技术手段，能够确保模型在学习新知识的同时保持先前知识的稳定性和准确性。

在大模型微调过程中，为避免灾难性遗忘，可以采取以下方法：

1.知识蒸馏：在微调中使用知识蒸馏技术，传递原始模型的知识给微调后的模型，有助于保留先前学到的知识。

2.正则化：利用正则化方法限制模型参数的变化范围，防止模型在学习新数据时丢失先前学到的知识。

3.增量学习：将新数据与旧数据一起用于模型训练，以便模型在学习新知识的同时保留先前知识。

4.模型集成：将微调后的模型与原始模型集成，保持两者的知识，提高模型的泛化能力，避免灾难性遗忘的发生。

通过综合运用上述方法，可以有效避免大模型在微调过程中出现灾难性遗忘，确保模型在学习新知识的同时保持先前知识的稳定性和准确性。

议题共识总结

灾难性遗忘现象是在连续学习多个任务的过程中，学习新知识的过程会迅速破坏之前获得的信息，而导致模型性能在旧任务中急剧下降。由于大模型的研究应用逐渐往微调等增量学习的方向深入，灾难性遗忘的问题开始被人们所认识和关注，在业界进行了不少研究和实验，可以总结出一些经验。暂时来看，经过实验验证的方法有如下几个：

1.低秩适应LoRA方法是一种高效的微调方法，其原理是保留大模型的原始权重不变，从新数据中学习的知识只更新到小得多的附加权重矩阵中。只是目前来看也常常出现灾难性遗忘的现象。

2.LoRA方法是在LoRA方法之上的改进，因为它是在正交子空间中逐步学习新任务，同时固定住了过去任务中学到的LoRA参数。实验结果表明，O-LoRA 在一定程度上能够缓解灾难性遗忘问题。然而，在应用于其他多种数据集时，O-LoRA 的表现受到了超参数的影响，并不是在所有数据集和任务上都表现最佳。这表明 O-LoRA 具有一些局限性，需要在未来的研究中进一步改进和完善。

3.NEFTune方法：具体而言，在训练数据集token化并转化为嵌入向量，将采样的噪声加到嵌入向量中，作为模型的输入进行训练。但是在实验中，NEFTune + LoRA 方法在多种任务中也存在灾难性遗忘现象。

4.LLaMA-Pro方法：一种新的增量预训练方法，对模型结构的不同方面进行进行Transformer块扩展后，增量预训练过程中仅对新增块进行训练，有效地进行模型知识注入，并且由于在Decoder结构内进行权重训练，极大程度地避免灾难性遗忘。

结合EMA、Mean Teacher和Early Stopping等策略，以及在必要时采用数据增强和迁移学习技术，来提升大模型在特定任务上的性能，同时尽量减少对其他能力的负面影响。

大型语言模型持续微调是一个崭新的技术，在这过程中出现灾难性遗忘现象也是个新生的问题，上面的思路提供了一个可行性方案。但是，这些方案还不够完善，效果也需要继续提升，还有赖各研究机构和业界继续探索研究。