很多人都知道,大语言模型(比如 ChatGPT、Claude)很强,是因为它们特别“大”——参数多、数据多、训练得久。但是我们有没有想过:模型越大,真的就一定越好吗?
今天我们不聊预训练(模型还在“上学”的阶段),我们来聊聊 后训练阶段(模型“毕业”开始找工作了)和 推理阶段(模型真正“上班”干活了)的大模型扩展规律,也就是专业术语里的 Scaling Law(扩展规律)。
1.后训练阶段的 Scaling Law:让模型学会“讨人喜欢”
预训练完,模型只是“知识很丰富”,但它不一定“懂人话”。这时候就要通过两个步骤,让模型更“对人友好”:
1.1. 奖励模型训练(Reward Model)
怎么做?
先找人类标注一些对比数据,比如:“A 回答比 B 更好”,然后训练一个“奖励模型”来学会判断什么是好回答。
Scaling Law 有什么规律?
-
奖励模型越大,学得越像样。
-
数据越多,表现越好,但越到后面提升越小(边际效益递减)。
-
模型不能太小(装不下复杂的人类偏好),也不能太大(容易乱打分,甚至出现“奖励黑洞”——模型钻规则空子来拿高分)。
1.2. 强化学习微调(比如 PPO)
怎么做?
用刚才训练好的奖励模型给语言模型打分,再通过强化学习微调,让它学会生成“高分回答”。
Scaling Law 怎么体现?
-
大模型容易“过拟合”,就是学会了“怎么讨好打分器”,但不一定真的理解人类想要什么(这叫 Reward Hacking)。
-
训练久了可能收益越来越小,有时候甚至适得其反。
-
大模型比小模型更敏感,对奖励模型的微小变化反应更大。
打个比方:
就像一个聪明孩子参加作文比赛,如果他只学会“讨好评委”,可能写得套路满满、华而不实。
2.推理阶段 Scaling Law:模型到底能“想”多远?
后训练之后,模型就要开始“干活”了,也就是我们常说的推理阶段(inference)。
🔍 Zero-shot、Few-shot 是什么?
-
Zero-shot:不给任何示例,模型直接完成任务。
-
Few-shot:给几个例子,模型举一反三。
Scaling Law 告诉我们:
-
模型越大,Zero-shot 和 Few-shot 的能力普遍更强;
-
某些复杂能力(比如数学、逻辑推理)只有在模型到达一定规模后才突然“觉醒”——这叫 能力突现(Emergent Abilities)。
举个例子:
可能一个 10 亿参数的模型不会做小学数学,但一个 1000 亿参数的模型突然能解方程了,就像突然开窍一样。
3.这些规律能怎么用?你该怎么选模型?
阶段 | Scaling Law 看点 | 对我们有什么用? |
---|---|---|
奖励模型训练 | 看模型大小、数据量对打分效果的影响 | 设计奖励模型时要避免太小太笨 or 太大乱来 |
强化学习微调 | 看不同规模模型是否容易乱学 | 调 RL 参数时,小模型稳定、大模型要小心过拟合 |
推理阶段 | 看模型推理能力随规模怎么变 | 选模型时可以根据任务复杂度“对号入座” |
总结
大家都在说“大模型时代”,但实际上不是简单地“越大越好”。Scaling Law 让我们理解——什么样的训练资源投入,才能换来真正有用的智能能力。
对于想做 AI 的你来说,它就是一把“指南针”:
-
帮你规划资源;
-
帮你预测性能;
-
帮你避坑优化.
📢 想要了解更多内容,可在VX小程序搜索🔍AI Pulse(AI 脉动科技),获取更多最新内容。