大模型SFT

简介

supervised fine-tuning的缩写,即有监督的微调。如应用到一个新的场景,就可以使用SFT

开发流程

  • 设计prompt
  • 选取llm模型
  • 制作数据集,子任务1k就可以了。内容要丰富。风格格式统一;尽量不加入新知识
  • SFT微调

疑问

  • SFT很难学到常识、知识。更应该关注激发模型在预训练中已学到的知识、让模型学习业务所需要的特定规则、以及输出格式稳定。
  • 数据质量很重要
  • 幻觉问题,模型一本正经的胡说八道。(通过清洗数据集、强化学习对齐、后处理等方式解决)
  • 如何选择微调算法。如Lora、P-tune、SFT等。Lora一般比较稳定。SFT Scaling law 论文表明,当数据量仅在几千条时,P-tuning是最佳选择;数据量在几千至万条之间时,Lora更为适合;而当数据量达到百万级别时,Full-tunning效果最佳。此外,使用 Full-tunning 会导致训练后的模型泛化性不如 Lora。

参考:

为什么大模型会「说胡话」?如何解决大模型的「幻觉」问题? - 平凡的回答 - 知乎
https://www.zhihu.com/question/635776684/answer/3336439291

浅谈大模型 SFT 的实践落地: 10 问 10 答 - 周星星的文章 - 知乎
https://zhuanlan.zhihu.com/p/692892489

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

yang_daxia

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值