AI大模型的指令微调

一、前言

有监督微调(Supervised Finetuning,SFT)又称指令微调(Instruction Tuning),是指在已经训练好的语言模型的基础上,通过使用有标注的特定任务数据进行进一步的微调,使模型具备遵循指令的能力。

由于大语言模型的参数量十分庞大,当将其应用到下游任务时,微调全部参数需要相当高的算力。 为了节省成本,研究人员提出了多种参数高效(Parameter Efficient)的微调方法,旨在仅训练少量参数使模型适应到下游任务。

二、LoRA(Low-Rank Adaptation of Large Language Models)

语言模型针对特定任务微调之后,权重矩阵通常具有很低的本征秩(Intrinsic Rank)。LoRA认为,参数更新量即便投影到较小的子空间中,也不会影响学习的有效性。因此,提出固定预训练模型参数不变,在原本权重矩阵旁路添加低秩矩阵的乘积作为可训练参数,用以模拟参数的变化量。

除LoRA 外,也有其他高效微调方法,如微调适配器(Adapter)或前缀微调(Prefix Tuning)。微调适配器分别对Transformer 层中的自注意力模块与多层感知(MLP)模块,以及MLP 模块与残差连接之间添加适配器层(Adapter layer)作为可训练参数,该方法及其变体会增加网络的深度,从而在模型推理时带来额外的时间开销。 而对于使用LoRA 的模型来说,由于可以将原权重与训练后权重合并,即W = W0+BA,因此在推理时不存在额外的开销。前缀微调是指在输入序列前缀添加连续可微的软提示作为可训练参数。在实验中,使用LoRA 方法训练的GPT-2、GPT-3 模型在相近数量的可训练参数下,性能均优于或相当于使用上述两种微调方法。

LoRA 算法不仅在RoBERTa、DeBERTa、GPT-3 等大语言模型上取得了很好的效果,也应用到了Stable Diffusion 等视觉大模型中,同样也可以用很小的成本达到微调大语言模型的目的。 LoRA 算法引起了企业界和研究界的广泛关注,研究人员又先后提出了AdaLoRA、QLoRA、IncreLoRA及LoRA-FA等算法。

三、AdaLoRA 和QLoRA

3.1 AdaLoRA

LoRA 算法给所有的低秩矩阵指定了唯一的秩,从而忽略了不同模块、不同层的参数对于微调特定任务的重要性差异。 因此,提出了AdaLoRA(Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning)算法,在微调过程中根据各权重矩阵对下游任务的重要性动态调整秩的大小,用以进一步减少可训练参数量,同时保持或提高性能。 为了达到降秩且最小化目标矩阵与原矩阵差异的目的,常用的方法是对原矩阵进行奇异值分解并裁去较小的奇异值。然而,对于大语言模型来说,在训练过程中迭代地计算那些高维权重矩阵的奇异值是代价高昂的。

3.2 QLoRA

NF4 是 基于分位数量化(Quantile Quantization)构建而成,该量化方法使原数据经量化后,每个量化区间中的值的数量相同。具体做法是先对数据进行排序,然后找出所有数据中每个 k 分位的值,这些值组成了所需的数据类型(Data type)。 对于4-bit 来说,k = 24 = 16。然而,该过程的计算代价对于大语言模型的参数来说是不可接受的。考虑到预训练模型参数通常呈均值为0的高斯分布,因此可以先对一个标准高斯分布N(0, 1) 按上述方法得到其4-bit 分位数量化数据类型,并将该数据类型的值缩放至[−1, 1]。随后,将参数也缩放至[−1, 1] 即可按通常方法进行量化。

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

  • 5
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值