【人工智能时代】- LLM 大模型学习必知必会系列-掌握分布式训练与LoRA/LISA微调:打造高性能大模型的秘诀进阶实战指南

1.微调(Supervised Finetuning)

指令微调阶段使用了已标注数据。这个阶段训练的数据集数量不会像预训练阶段那么大,最多可以达到几千万条,最少可以达到几百条到几千条。指令微调可以将预训练的知识“涌现”出来,进行其他类型的任务,如问答类型的任务。一般指令微调阶段对于在具体行业上的应用是必要的,但指令微调阶段一般不能灌注进去新知识,而是将已有知识的能力以某类任务的形式展现出来。

指令微调任务有多种场景,比较常用的有:

  • 风格化:特定的问答范式
  • 自我认知:自我认知改变
  • 能力增强:模型本身能力不够,对具体行业的数据理解不良
  • Agent:支持Agent能力,比如程序编写、API调用等

上述只是举了几个例子,一般来说距离用户最近的训练方式就是指令微调。

一般来说,LLM中指的base模型是指经过了预训练(以及进行了一部分通用指令的微调)的模型。Chat模型是经过了大量通用数据微调和人类对齐训练的模型。

如何选择base模型和chat模型进行微调呢?

  • 数据量较少的时候(比如小于1w条)建议使用chat模型微调
  • 数据量较多、数据较为全面的时候,建议使用base模型微调
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

xiaoli8748_软件开发

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值