大模型SFT

最新推荐文章于 2024-09-10 19:21:55 发布

yang_daxia

最新推荐文章于 2024-09-10 19:21:55 发布

阅读量468

点赞数 4

分类专栏：大模型 AIGC 文章标签： LLM SFT

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yang_daxia/article/details/139510917

版权

大模型同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

简介

supervised fine-tuning的缩写，即有监督的微调。如应用到一个新的场景，就可以使用SFT

开发流程

设计prompt
选取llm模型
制作数据集，子任务1k就可以了。内容要丰富。风格格式统一；尽量不加入新知识
SFT微调

疑问

SFT很难学到常识、知识。更应该关注激发模型在预训练中已学到的知识、让模型学习业务所需要的特定规则、以及输出格式稳定。
数据质量很重要
幻觉问题，模型一本正经的胡说八道。（通过清洗数据集、强化学习对齐、后处理等方式解决）
如何选择微调算法。如Lora、P-tune、SFT等。Lora一般比较稳定。SFT Scaling law 论文表明，当数据量仅在几千条时，P-tuning是最佳选择；数据量在几千至万条之间时，Lora更为适合；而当数据量达到百万级别时，Full-tunning效果最佳。此外，使用 Full-tunning 会导致训练后的模型泛化性不如 Lora。

参考：

为什么大模型会「说胡话」？如何解决大模型的「幻觉」问题？ - 平凡的回答 - 知乎
https://www.zhihu.com/question/635776684/answer/3336439291

浅谈大模型 SFT 的实践落地： 10 问 10 答 - 周星星的文章 - 知乎
https://zhuanlan.zhihu.com/p/692892489

关注

4
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

yang_daxia CSDN认证博客专家 CSDN认证企业博客

码龄6年

196: 原创

3万+: 周排名

7322: 总排名

44万+: 访问

: 等级

5027: 积分

349: 粉丝

322: 获赞

165: 评论

915: 收藏

私信

关注

热门文章

分类专栏

最新评论

Code Llama: Open Foundation Models for Code论文阅读
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN月度精选】榜单，全部的排名请看 https://bbs.csdn.net/topics/619342393。
Code Llama: Open Foundation Models for Code论文阅读
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN月度精选】榜单，全部的排名请看 https://bbs.csdn.net/topics/619340597。
MiniCPM-V: A GPT-4V Level MLLM on Your Phone论文阅读
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN月度精选】榜单，全部的排名请看 https://bbs.csdn.net/topics/619339673。
LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
Code Llama: Open Foundation Models for Code论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

yang_daxia 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。