模型越大越聪明？其实没那么简单！聊聊大模型的Scaling Law

夏天｜여름이다

于 2025-05-07 16:03:42 发布

阅读量277

点赞数 5

文章标签：人工智能机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44649780/article/details/147745610

版权

很多人都知道，大语言模型（比如 ChatGPT、Claude）很强，是因为它们特别“大”——参数多、数据多、训练得久。但是我们有没有想过：模型越大，真的就一定越好吗？

今天我们不聊预训练（模型还在“上学”的阶段），我们来聊聊 后训练阶段（模型“毕业”开始找工作了）和 推理阶段（模型真正“上班”干活了）的大模型扩展规律，也就是专业术语里的 Scaling Law（扩展规律）。

1.后训练阶段的 Scaling Law：让模型学会“讨人喜欢”

预训练完，模型只是“知识很丰富”，但它不一定“懂人话”。这时候就要通过两个步骤，让模型更“对人友好”：

1.1. 奖励模型训练（Reward Model）

怎么做？
先找人类标注一些对比数据，比如：“A 回答比 B 更好”，然后训练一个“奖励模型”来学会判断什么是好回答。

Scaling Law 有什么规律？

奖励模型越大，学得越像样。
数据越多，表现越好，但越到后面提升越小（边际效益递减）。
模型不能太小（装不下复杂的人类偏好），也不能太大（容易乱打分，甚至出现“奖励黑洞”——模型钻规则空子来拿高分）。

1.2. 强化学习微调（比如 PPO）

怎么做？
用刚才训练好的奖励模型给语言模型打分，再通过强化学习微调，让它学会生成“高分回答”。

Scaling Law 怎么体现？

大模型容易“过拟合”，就是学会了“怎么讨好打分器”，但不一定真的理解人类想要什么（这叫 Reward Hacking）。
训练久了可能收益越来越小，有时候甚至适得其反。
大模型比小模型更敏感，对奖励模型的微小变化反应更大。

打个比方：
就像一个聪明孩子参加作文比赛，如果他只学会“讨好评委”，可能写得套路满满、华而不实。

2.推理阶段 Scaling Law：模型到底能“想”多远？

后训练之后，模型就要开始“干活”了，也就是我们常说的推理阶段（inference）。

🔍 Zero-shot、Few-shot 是什么？

Zero-shot：不给任何示例，模型直接完成任务。
Few-shot：给几个例子，模型举一反三。

Scaling Law 告诉我们：

模型越大，Zero-shot 和 Few-shot 的能力普遍更强；
某些复杂能力（比如数学、逻辑推理）只有在模型到达一定规模后才突然“觉醒”——这叫 能力突现（Emergent Abilities）。

举个例子：
可能一个 10 亿参数的模型不会做小学数学，但一个 1000 亿参数的模型突然能解方程了，就像突然开窍一样。

3.这些规律能怎么用？你该怎么选模型？

阶段	Scaling Law 看点	对我们有什么用？
奖励模型训练	看模型大小、数据量对打分效果的影响	设计奖励模型时要避免太小太笨 or 太大乱来
强化学习微调	看不同规模模型是否容易乱学	调 RL 参数时，小模型稳定、大模型要小心过拟合
推理阶段	看模型推理能力随规模怎么变	选模型时可以根据任务复杂度“对号入座”

总结

大家都在说“大模型时代”，但实际上不是简单地“越大越好”。Scaling Law 让我们理解——什么样的训练资源投入，才能换来真正有用的智能能力。

对于想做 AI 的你来说，它就是一把“指南针”：

帮你规划资源；
帮你预测性能；
帮你避坑优化.

📢 想要了解更多内容，可在VX小程序搜索🔍AI Pulse(AI 脉动科技),获取更多最新内容。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

夏天｜여름이다 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。