大模型微调爆火!32种前沿微调方法全面汇总

大模型微调技术在短时间内迅速发展,迎来了爆火,各种微调包括LoRA的多个版本迭代、增量学习、蒸馏技术和开源模型的理解等技术层出不穷。

这些技术能够向模型输入更多信息,优化特定功能,使其适应特定任务或领域,是大模型er必须掌握的重要技能。

为了让大家跟上领域前沿,我整理了32种前沿微调技术,并提供了参考论文和源码,涵盖_指令微调_、_模型对齐_和_模型推理_等方面。

模型指令微调

【选取一部分参数更新】

1.BitFit: Simple Parameter-efficient Fine-tuning or Transformer-based Masked Language-models

简述:该文介绍了BitFit,这是一种稀疏微调方法,其中只修改模型的偏差项(或其子集)。作者发现,对于中小型训练数据,在预训练的BERT模型上应用BitFit与对整个模型的微调相比有时甚至更好。对于较大的数据,该方法与其他稀疏微调方法具有竞争力。


【增加额外参数】

2.Prefix-Tuning Optimizing Continuous Prompts for Generation

简述:该文提出了预调优,这是一种用于自然语言生成任务的轻量级微调替代方案,它可以保持语言模型参数的frozen,优化一个小的连续任务特定向量(称为预调优)。预调试从提示中汲取灵感,允许后续tokens像“虚拟tokens”一样参与预调试。

作者对GPT-2进行预调优,以生成表到文本,并对BART进行摘要。通过仅学习0.1%的参数,预调优在全数据设置中获得了可比的性能,在低数据设置中优于微调。


【引入重参数化】

3.LoRA: Low-Rank Adaptation Of Large Language Models

简述:该文提出了低秩自适应,即LoRA,它冻结预训练的模型权重,并将可训练的秩分解矩阵注入Transformer架构的每一层,从而大大减少了下游任务的可训练参数数量。

LoRA在RoBERTa、DeBERTa、GPT-2和GPT-3上的模型质量与微调不相上下或者更好,并且它具有更少的可训练参数、更高的训练吞吐量。


【混合高效微调】

4.Towards A Unified View Of Parameter-Efficient Transfer Learning

简述:该文分解了最先进的参数有效迁移学习方法的设计,并提出了一个统一的框架,在它们之间建立联系。

具体来说,作者将它们重新定义为对预训练模型中特定隐藏状态的修改,并定义一组不同方法变化的设计维度,例如计算修改的函数和应用修改的位置。

该框架能够在不同的方法之间传递设计元素,这些方法比以前的方法调整更少的参数,同时更有效。

模型对齐

【基于强化学习的方法】

1.RLSF: Multimodal Sleep Improvement Algorithm based Reinforcement Learning

简述:针对白噪声lite对睡眠质量的影响,该文提出了一种基于强化学习的time-frequency相关多模式睡眠增强框架(RLSF),这是一种包括硬件和软件的闭环反馈睡眠改善框架。

具体来说,是通过脑电传感器的输入来馈送个体的睡眠状态进行学习,并逐步训练agent以适应睡眠习惯。


【基于语义学习的方法】

2.LIMA: Less Is More for Alignment

简述:LIMA是一个65B参数的LLaMa语言模型,在没有任何强化学习或人类偏好建模的情况下,仅对1000个精心策划的提示和响应进行了标准监督损失的微调。

LIMA表现出了非常强大的性能,仅从训练数据中的少数几个例子中就学会了遵循特定的响应格式,包括从计划行程到推测替代历史的复杂查询。此外,该模型倾向于很好地推广到训练数据中没有出现的、看不见的任务上。

模型推理

【Post-training Quantization】

1.ZeroQuant: Efficient and Affordable Post-Training Quantization for Large-Scale Transformers

简述:该文提出了一种高效且经济的训练后量化方法来压缩基于Transformer的大型模型,称为ZeroQuant。

ZeroQuant是一个端到端的量化和推理pipeline,有三个主要组件:
(1)用于权重和激活的fine-grained hardware-friendly量化方案;
(2)一种新的可负担的逐层知识提取算法(LKD);
(3) 高度优化的量化系统后端支持,以消除量化/去量化开销。

对于BERT和GPT-3型模型,ZeroQuant可以以无成本的方式将权重和激活的精度降低到INT8,并且精度影响最小。


【量化感知训练】

2.LLM-QAT: Data-Free Quantization Aware Training for Large Language Models

简述:该文提出了一种无数据提取方法,该方法利用了预训练模型产生的生成,更好地保留了原始输出分布,并允许量化任何独立于其训练数据的生成模型,类似于训练后量化方法。

除了量化权重和激活,作者还量化了KV cache,这对于提高吞吐量和支持当前模型大小下的长序列依赖性至关重要。


【Prunning】

3.SparseGPT: Massive Language Models Can be Accurately Pruned in One-Shot

简述:该文表明,大规模generative pretrained transformer(GPT)族模型可以在一次迭代中修剪到至少50%的稀疏性,而无需任何再训练,精度损失最小。

这是通过一种名为SparseGPT的方法实现的,该方法专门设计用于在大规模GPT家族模型上高效准确地工作。


【knowledge Distillation】

4.A Survey on Knowledge Distillation of LargeLanguage Models

简述:该文对KD在LLM领域中的作用进行了全面的调查,强调了它在向小型模型传授先进知识方面的关键作用,以及它在模型压缩和自我改进中的实用性。

该调查围绕三个基本支柱精心构建:算法、技能和垂直化——对KD机制、特定认知能力的增强及其在不同领域的实际意义进行了全面的研究。

至关重要的是,该调查揭示了数据增强(DA)和KD之间复杂的相互作用,说明了DA如何在KD框架内成为一种强大的paradigm,以提高LLM的性能。

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

  • 16
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
模型微调方法是指在已经训练好的大型模型基础上,通过在特定任务上进行进一步训练来提高性能的方法。常见的大模型微调方法包括以下几种: 1. 迁移学习:将已经在大规模数据上预训练好的模型应用于新的任务上。通过微调模型的一部分或全部参数,使其适应新任务的特征和标签。迁移学习可以加快模型训练速度,提高模型性能。 2. 预训练-微调:首先在大规模数据上进行预训练,然后在特定任务上进行微调。预训练通常是在无监督或半监督的方式下进行,例如使用自编码器或生成对抗网络。预训练可以帮助模型学习到更丰富的特征表示,微调则使其适应具体任务。 3. 数据增强:通过对原始数据进行一系列变换和扩充,生成更多的训练样本。数据增强可以提高模型的泛化能力和鲁棒性,减少过拟合风险。 4. 优化算法调整:针对大模型微调过程中可能出现的问题,如梯度消失或梯度炸等,对优化算法进行调整。常见的优化算法包括梯度下降、Adam等。 大模型框架是指用于构建和训练大型模型的软件框架。常见的大模型框架包括以下几种: 1. TensorFlow:由Google开发的开源深度学习框架,支持构建和训练各种类型的神经网络模型,包括大型模型。TensorFlow提供了丰富的工具和库,方便进行模型微调和部署。 2. PyTorch:由Facebook开发的开源深度学习框架,提供了动态图机制和丰富的工具,使得构建和训练大型模型更加灵活和高效。PyTorch也被广泛应用于大规模模型微调和研究。 3. Keras:一个高级神经网络API,可以运行在TensorFlow、Theano和CNTK等后端上。Keras提供了简洁易用的接口,方便构建和训练大型模型。 4. MXNet:由亚马逊开发的深度学习框架,支持多种编程语言和硬件平台。MXNet提供了高性能的计算和训练能力,适用于大规模模型微调和部署。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序员二飞

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值