参数高效微调（PEFT）综述

人工智能大模型讲师培训咨询叶梓

已于 2024-11-03 21:49:11 修改

阅读量1.4k

点赞数 11

文章标签：语言模型人工智能自然语言处理微调参数高效微调机器学习性能优化

于 2024-09-08 19:45:00 首次发布

本文链接：https://blog.csdn.net/weixin_44292902/article/details/141933487

版权

人工智能咨询培训老师叶梓转载标明出处

大模型如BERT和GPT-3的参数数量庞大，动辄数十亿甚至数千亿级别，给进一步的微调和应用带来了巨大的挑战。针对这一问题，Vladislav Lialin、Vijeta Deshpande、Anna Rumshisky等研究者中提出了一系列参数高效微调（PEFT）的方法。旨在解决如何在不牺牲性能的前提下，减少对大模型进行微调时所需的计算资源和内存消耗。

论文链接：https://arxiv.org/pdf/2303.15647

方法分类

图2 为PEFT方法的分类，大致分为三类：加法（Additive methods）、选择法（Selective methods）和重参数化法（Reparametrization-based methods）。这些方法通过不同的策略来减少微调过程中需要更新的参数数量。

加法的核心思想是在现有的预训练模型中增加额外的参数或层，并且只训练这些新增加的参数。这是目前最大且被广泛探索的PEFT方法类别。图2在加法方法中，我们可以看到两个大的包含组：类似适配器的方法和软提示。

适配器（Adapters）：适配器是一种加法参数高效微调方法，涉及在Transformer子层后引入小型全连接网络。这一想法已被广泛采用，并提出了多种适配器的变体，包括修改适配器的放置位置、剪枝和使用重参数化来减少可训练参数的数量。
软提示（Soft Prompts）：语言模型提示旨在通过修改输入文本来控制语言模型的行为，这通常包括任务描述和一些上下文示例。然而，这些方法难以优化，并且由于模型的最大输入长度限制，训练示例的数量也受到限制。为了解决这些缺点，引入了“软”提示的概念，其中模型的部分输入嵌入通过梯度下降进行微调，将寻找离散空间中的提示问题转化为连续优化问题。

选择性PEFT的一个早期例子是只微调网络的少数顶层。现代方法通常基于层的类型或内部结构，例如只微调整模型的偏置或特定行。

重参数化方法利用低秩表示来最小化可训练参数的数量。这种方法在深度学习的经验性和理论分析中已被广泛探索。重参数化方法中较知名是LoRa，它使用简单的低秩矩阵分解来参数化权重更新。

另外一些方法结合了多种PEFT类别的思想我们称为混合方法 。例如，MAM适配器结合了适配器和提示调整。UniPELT将LoRa添加到混合中。Compacter和KronAB res通过重参数化适配器来减少它们的参数数量。

想要掌握如何将大模型的力量发挥到极致吗？叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具（限时免费）。

1小时实战课程，您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型，以发挥其最大潜力。

CSDN教学平台录播地址：https://edu.csdn.net/course/detail/39987

表1 为各种方法在存储、内存、反向传播和推理开销方面的特点。例如，适配器（Adapters）在存储和内存效率方面表现良好，但在反向传播时不会减少计算成本，并且在推理时引入了额外的全连接层（FFN）。而BitFit和DiffPruning等选择性方法在存储效率上表现不错，但可能在内存和计算效率方面不占优势。

存储效率关注的是模型在存储时所需的空间。DiffPruning方法虽然在存储上是高效的，因为它训练了一个与模型参数数量相同的二