375篇文献，深入探究推理大模型后训练技术

人工智能大模型讲师培训咨询叶梓

已于 2025-03-13 20:47:57 修改

阅读量242

点赞数 9

分类专栏： AI前沿文章标签：人工智能深度学习机器学习大模型推理大模型微调强化学习

于 2025-03-13 15:15:00 首次发布

原文链接：https://mp.weixin.qq.com/s/IePnHkOO7PmwExbdBBiT1Q

版权

AI前沿专栏收录该内容

108 篇文章

订阅专栏

转自公众号：PaperAgent

想要掌握如何将大模型的力量发挥到极致吗？叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具（限时免费）。

1小时实战课程，您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型，以发挥其最大潜力。

CSDN教学平台录播地址：https://edu.csdn.net/course/detail/39987

更多分享，关注视频号（直播分享）：sphuYAMr0pGTk27 抖音号：44185842659

深入探讨了关于大型语言模型（LLMs）的后训练（post-training）方法，特别是针对LLMs推理能力的优化。后训练技术通过微调（fine-tuning）、强化学习（reinforcement learning）和测试时扩展（test-time scaling）等策略来提升LLMs的性能、适应性和与用户意图的对齐。

Refer to caption

Refer to caption

后训练方法的关键结论和趋势：

微调的局限性：微调可以提高LLMs在特定任务上的性能，但可能会导致过拟合和对新领域的泛化能力下降。

强化学习的有效性：强化学习能够通过动态反馈优化LLMs的行为，使其更符合人类偏好，但需要处理复杂的奖励结构和高维输出。

测试时扩展的潜力：测试时扩展通过在推理时调整计算资源，可以在不增加模型参数的情况下提高LLMs的性能，尤其在资源受限或任务复杂的情况下表现出色。

强化学习增强型LLM的概述，其中“141B-A39B”表示一种混合专家（MoE）架构，总参数量为141B，其中在推理时活跃使用的参数量为39B。

图片

LLMs的后训练方法分为三大类：微调（fine-tuning）、强化学习（reinforcement learning）和测试时扩展（test-time scaling）。

定义：强化学习通过动态反馈和优化序列决策来增强LLMs的适应性。

挑战：与传统强化学习不同，LLMs的强化学习面临着高维动作空间、主观和延迟的奖励信号，以及需要平衡多个目标的复杂性。

图片

方法：讨论了多种强化学习方法，包括直接策略优化（DPO）、群体相对策略优化（GRPO）和近端策略优化（PPO）等，这些方法通过不同的策略来优化LLMs的行为，使其更符合人类偏好。

图片

微调（Fine-Tuning）

定义：微调是通过在特定任务或领域的数据集上更新预训练模型的参数，使其适应特定任务或领域。

挑战：微调可能会导致过拟合、高计算成本和对数据偏差的敏感性。

参数高效技术：为了应对这些挑战，提出了参数高效的技术，如 LoRA 和 adapters，这些技术通过更新显式参数来学习任务特定的适应性，显著减少了计算开销。

图片

图片

定义：测试时扩展通过在推理时动态调整计算资源来优化LLMs的性能。

方法：包括链式思考（Chain-of-Thought）、树状思考（Tree-of-Thoughts）、蒙特卡洛树搜索（MCTS）等，这些方法通过分解复杂问题或迭代探索可能的输出来提高LLMs的推理能力。

图片

推理、强化学习对齐和多语言数据集的综合概述。其中，pointwise 和 pairwise 指的是在不同任务中评估模型性能的不同方法。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。