参数高效微调(PEFT)综述

人工智能咨询培训老师叶梓 转载标明出处

大模型如BERT和GPT-3的参数数量庞大,动辄数十亿甚至数千亿级别,给进一步的微调和应用带来了巨大的挑战。针对这一问题,Vladislav Lialin、Vijeta Deshpande、Anna Rumshisky等研究者中提出了一系列参数高效微调(PEFT)的方法。旨在解决如何在不牺牲性能的前提下,减少对大模型进行微调时所需的计算资源和内存消耗。

论文链接:https://arxiv.org/pdf/2303.15647

方法分类

图2 为PEFT方法的分类,大致分为三类:加法(Additive methods)、选择法(Selective methods)和重参数化法(Reparametrization-based methods)。这些方法通过不同的策略来减少微调过程中需要更新的参数数量。

加法的核心思想是在现有的预训练模型中增加额外的参数或层,并且只训练这些新增加的参数。这是目前最大且被广泛探索的PEFT方法类别。图2在加法方法中,我们可以看到两个大的包含组:类似适配器的方法和软提示。

  • 适配器(Adapters):适配器是一种加法参数高效微调方法,涉及在Transformer子层后引入小型全连接网络。这一想法已被广泛采用,并提出了多种适配器的变体,包括修改适配器的放置位置、剪枝和使用重参数化来减少可训练参数的数量。

  • 软提示(Soft Prompts):语言模型提示旨在通过修改输入文本来控制语言模型的行为,这通常包括任务描述和一些上下文示例。然而,这些方法难以优化,并且由于模型的最大输入长度限制,训练示例的数量也受到限制。为了解决这些缺点,引入了“软”提示的概念,其中模型的部分输入嵌入通过梯度下降进行微调,将寻找离散空间中的提示问题转化为连续优化问题。

选择性PEFT的一个早期例子是只微调网络的少数顶层。现代方法通常基于层的类型或内部结构,例如只微调整模型的偏置或特定行。

重参数化方法利用低秩表示来最小化可训练参数的数量。这种方法在深度学习的经验性和理论分析中已被广泛探索。重参数化方法中较知名是LoRa,它使用简单的低秩矩阵分解来参数化权重更新。

另外一些方法结合了多种PEFT类别的思想我们称为混合方法 。例如,MAM适配器结合了适配器和提示调整。UniPELT将LoRa添加到混合中。Compacter和KronAB res通过重参数化适配器来减少它们的参数数量。

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具(限时免费)。

1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。

CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987 

表1 为各种方法在存储、内存、反向传播和推理开销方面的特点。例如,适配器(Adapters)在存储和内存效率方面表现良好,但在反向传播时不会减少计算成本,并且在推理时引入了额外的全连接层(FFN)。而BitFit和DiffPruning等选择性方法在存储效率上表现不错,但可能在内存和计算效率方面不占优势。

存储效率关注的是模型在存储时所需的空间。DiffPruning方法虽然在存储上是高效的,因为它训练了一个与模型参数数量相同的二

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值