漫画趣解：大模型预训练、后训练、微调

agi大模型

于 2025-04-14 11:56:41 发布

阅读量664

点赞数 18

文章标签：深度学习人工智能机器学习大模型预训练大模型微调大模型训练

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_49892805/article/details/147217389

版权

漫画趣解：大模型预训练、后训练、微调

上个月，DeepSeek悄悄做了一次更新，发布了一个小版本：DeepSeek-V3-0324。

这个版本大幅提高了在推理类任务上的表现水平，在数学、代码类相关评测集上取得了超过 GPT-4.5 的得分成绩。

怎么做到的呢？DeepSeek官方文档是这么说↓

新版 V3 模型借鉴 DeepSeek-R1 模型训练过程中所使用的强化学习技术*，与之前的 DeepSeek-V3 使用同样的 base 模型，仅改进了后训练*方法。

这里面提到了一个词：后训练。

啥是后训练，跟预训练有啥区别？

今天我们用最通俗的比喻，来讲讲大模型三个不同阶段的训练方法：❶预训练（Pre-training）❷后训练（Post-training）❸微调（Fine-tuning）。

先看预训练

预训练就是用大量的通用数据集先训练模型，让它掌握基础知识和技能（通用语言能力和世界常识，比如刚发布的Llama 4在200种语言上进行预训练）。

这就好比我们的中小学阶段，系统地学习语文、数学、英语等基础学科知识。

这个阶段数据规模庞大，训练成本高，周期长（数万GPU天），比如Llama 4 Scout预训练就使用了40万亿tokens数据。

想想我们小时候刷过的题、吃过的苦、花费的时间、挨过的骂……

预训练的成本和时间一下子就具象化了。

再说后训练

后训练是指在预训练完成后的进一步训练阶段，目的在于让模型更好地适应实际的特定任务或应用场景。

这就好比高中毕业（预训练结束），考上大学，有了明确的专业方向，开始强化专业知识。

后训练阶段，数据规模小，通常是特定领域的数据（专业基础课和专业课），训练周期短（修够学分就行）。

回想一下你的大学生活，是不是比以前轻松多了。

不过，后训练往往不止一次，可能要根据实际需求，持续深造，不断优化。

这就好比我们上完本科，可能还要硕士、博士，持续深造，让自己的专业能力越来越扎实。

目前，在模型后训练环节，比较流行的是采用强化学习（RL：Reinforcement Learning）的方法。比如在DeepSeek-V3小版本发布的通告里，就特别指出了自己采用了强化学习进行后训练。

简单讲，强化学习就后训练的过程中不断告诉模型：①你做得好，继续保持（给正反馈）；②你做的不好，赶紧改正（给负反馈）。

通过这种“奖惩机制”，让模型学习更有针对性，表现也更好。

但是这种”打一巴掌、给个甜枣“的方法，有时候会把模型心态搞崩，太过于追求奖励的结果了而走极端。

所以，为了避免走极端，最近流行一种新的强化学习方法，叫做GRPO（引导式正则化策略优化），比如DeepSeek R1的训练就采用了这种方法。

GRPO就是在传统强化学习的奖励机制之上，加入一个额外的约束（正则项），确保和最初的“比较好的模型”不会差距太大。

这样模型就可以平稳地进步，既能拿到高奖励，又不会走极端。

如此，GRPO成了当下大模型后训练中，最流行的强化学习手段，能更安全、稳定地提升AI的表现，生成的内容更符合人类喜欢的风格和预期。

最后说说微调

严格来讲，把微调单拎出来讲并不科学，因为微调其实也是模型「后训练」的一种方法。

不过，一般后训练（像前面说的强化学习方法），发生在模型提供商那里。模型提供商在「预训练」完成以后，通过多次「后训练」优化，最终把模型打造成可交付的产品或服务。

而微调这种「后训练」，通常发生在模型使用者那里（尤其是行业客户场景）。

只因出徒后的大模型虽然基础知识丰富、专业能力一流，可是实战技巧却是空白，到了行业场景没法直接上岗。

比如——

怎么办呢？进行上岗培训，这就是微调。

微调是针对特定任务（修电脑）的训练，数据量小但很精准、具体，老司机会把他的具体修理经验交给你，让你的知识更接地气。

至此，一个大模型经过预训练、后训练、微调。

终于可以上岗干活啦。

简单总结下↓

**预训练：**基础知识广泛学；

**后训练：**专业领域深入学；

**微调：**具体实操岗前学。

好了，基本概念介绍完毕。

从目前的国内的趋势看，做大规模预训练的公司会越来越少（坊间传闻，今年上半年真正在做预训练的公司只有两三家）。

未来训练方面的主要需求都是后训练和微调（当然更大的需求是推理）。

可是说，随着DeepSeek的半路杀出，国内大模型战役的第一阶段，已经结束，“裸泳者”即将浮出水面。

零基础入门AI大模型

今天贴心为大家准备好了一系列AI大模型资源，包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

有需要的小伙伴，可以点击下方链接免费领取【保证100%免费】

点击领取《AI大模型&人工智能&入门进阶学习资源包》

1.学习路线图

在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源，但基本上都残缺不全的，这是我自己整理的大模型视频教程，上面路线图的每一个知识点，我都有配套的视频讲解。

在这里插入图片描述

在这里插入图片描述

（都打包成一块的了，不能一一展开，总共300多集）

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档，有几百本，都是目前行业最新的。
在这里插入图片描述

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

5.免费获取

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码或者点击以下链接都可以免费领取【保证100%免费】

点击领取《AI大模型&人工智能&入门进阶学习资源包》

在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。