换掉SFT！强化微调RFT来了，性能炸裂！

最新推荐文章于 2025-04-23 00:46:18 发布

大模型学习教程

最新推荐文章于 2025-04-23 00:46:18 发布

阅读量1.6k

点赞数 20

文章标签：机器学习深度学习人工智能数据库算法开发语言知识图谱

本文链接：https://blog.csdn.net/z551646/article/details/144342330

版权

offer捷报

恭喜训练营的一位社招学员拿下携程大模型算法offer，涨幅40%。

大家都听说过监督微调 SFT，强化微调 RFT 是个什么东西？

这次为期 12 天的 OpenAI 发布系列的 Day2，就搞出了一个让开发者震惊的玩意儿。

强化微调（Reinforcement Fine-Tuning）是通过给予模型高质量任务数据和参考答案来强化其推理能力。

与传统微调不同，强化微调并不是简单地让模型“记住答案”，而是通过训练模型在特定领域中学会推理，找到正确答案。

可以把它想象成给 AI 一套复杂的规则，让它通过实践和思考逐步掌握解决问题的方法。

这种微调方法使用两种数据集：一个是用于训练的微调数据集，另一个是用于验证的测试数据集。

模型首先通过微调数据集进行学习，然后在测试数据集上验证其推理能力，发现不足后再调整。

通过这种反复的自我推理、训练和验证，模型的能力会逐步提升，最终达到极高的专业水平。

这种方法不仅提高了模型解决相似问题的能力，还显著增强了在特定领域的准确性。

比如法律、保险、医疗、金融和工程领域，这些任务通常有明确的“正确答案”，而强化微调正是应对这些场景的利器

Sam Altman 认为强化微调 Reinforcement Fine-Tuning 是 2024 最牛的技术进展，能帮助大家搞定专业模型的训练。

用户用起来也非常简单。

OpenAI 通过一个根据症状推理预测可能基因的示例展现了强化微调的巨大潜力 —— 这实际上也正是伯克利实验室与 OpenAI 的合作项目之一。

结果发现，使用强化微调后，模型规模更小的 o1-mini 的表现可超过性能更加强劲的 o1。

首先来看训练数据集。具体来说，这里的数据集是一个 .jsonl 文件，其中每一行都是一个训练样本。在这个示例中，数据集中包含 11 个样本。

下面展示了一个具体数据样本。可以看到其中包含三项：病例报告（包含基本信息、症状以及没有的症状）、指令和正确答案。

在强化微调的训练过程中，模型并不能看到正确答案。在给模型提供病例报告和指令之后，模型会输出如上图底部所示的响应 —— 一个基因列表，其中排在第一位的基因是模型认为最可能的基因，以此类推。

接下来，还需要上传一个验证数据集。验证数据与训练数据的格式完全一样，但内容没有重叠。这样才能验证模型能否在该任务上进行泛化，而不仅仅是记住了训练数据。

在训练过程中，强化微调的「强化」部分就体现在评分器（Grader）的使用上。

其设计思路很简单，评分器会比较模型输出与正确答案，然后返回一个 0 到 1 之间的分数。0 表示模型的输出中不包含正确答案，而 1 表示正确答案在输出的第一个位置。

如下图所示，正确答案在第 2 个位置，评分器给出了 0.7 的分数。

当然，有些任务的输出结果并不是列表形式，因此 OpenAI 也提供了其它评分器，可以「相当有效地覆盖你可能拥有的意图的空间」。

并且他们也在不断增加更多评分器，未来也会支持用户自己定制的评分器。

配置好评分器之后，用户还可以选择调整模型种子和一些超参数，包括批量大小、学习率乘数、epoch 数量。

接下来，点击 Create，再等待一段时间，用户就能得到经过强化微调的定制模型。

Allard 表示，根据具体任务的不同，这个训练过程可能需要数小时到数天时间。

接下来，他演示了一个之前已经微调好的模型，以下截图展示了该模型的相关信息，可以看到基础模型是 o1-mini，经过强化微调后会得到一个输出模型。

同一个页面中还能看到模型在验证数据集上的分数变化情况。

那么，这个经过强化微调的 o1-mini 的表现究竟如何呢？

评估结果表明，在 top@1（正确答案在列表第 1 个位置的概率）、top@5（正确答案在列表前 5 个位置的概率）和 top@max（输出中包含正确答案的概率）指标上，其表现都明显胜过性能更加强大的最新版 o1。

下面展示了一些运行过程示例：

当然，强化微调是一种通用技术。理论上，只要有合适的数据集和评估器，你就能将 o1 训练成你的专业 AI 助手。

目前，OpenAI 仅支持强化微调的 Alpha 测试申请，并且名额有限，「非常适合正在与专家团队一起处理非常复杂任务的组织」，个人用户至少得等到明年了。

如果你有需求，可以在这里尝试申请：

https://openai.com/form/rft-research-program/

**强化微调技术最早由字节提出？
**

Reinforcement learning fine-tuning，简称为 ReFT，它结合了监督微调（SFT）和强化学习（RL）的方法，通过引入多条推理路径的学习，对这些路径与正确答案的匹配程度进行自动评估，从而优化模型生成高质量解答的能力。

而且，这个技术路线，更早竟然是字节跳动提出发出的，论文还发布在今年 ACL 24 上。

字节跳动在 ACL 2024 顶会上发表的 ReFT 论文是：

REFT: Reasoning with REinforced Fine-Tuning

研究内容为，通过监督微调（SFT）和强化学习 RL（PPO 算法）结合，来提高大语言模型在解决数学问题方面的推理能力。

ReFT 由两个阶段组成：

预热（Warm-up）阶段
强化学习 RL 阶段

首先使用 SFT 对模型进行预热，然后采用在线强化学习（在该工作中具体是 PPO 算法）进行优化。

预热阶段（Warm-up）

Warm-up 是 ReFT 的初始步骤，其目的是为模型提供一个基础，使其能够生成对数学问题的基本正确响应。

这个阶段使用监督式微调 SFT 实现：这一阶段使用包含“Question”和“思维链CoT”元组的数据集：(x, e)。

模型在这些“Question-CoT”对上进行微调，通常持续 1-2 个 epoch。这个过程将模型的预测能力调整到能够生成适当的响应。

RL 阶段

在预热阶段之后，模型进入强化学习阶段，这个阶段使用 PPO（Proximal Policy Optimization）算法来进一步提升模型的性能。

这一阶段使用包含“Question”和“Answer”元组（x，y）组成的数据集。

具体来说，模型通过反复生成多种可能的 CoT 推理路径，还有一个评估器，专门评估响应的答案正确性，生成 reward 信号反馈。正确答案会给予正奖励，错误答案则不给予奖励。

这个过程，类似于 AlphaZero 在围棋领域的自对弈(self-play)学习。

从结果上看，ReFT 在所有数据集上都显示出比 SFT 更好的性能，特别是在 CodeLLAMA 模型上，ReFT 在 GSM8K 数据集上的准确率比 SFT 提高了近 10 个百分点。

如何学习AI大模型？

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利： 👉👉CSDN大礼包：《最新AI大模型学习资源包》免费分享 👈👈

（👆👆👆安全链接，放心点击）

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

对于从来没有接触过AI大模型的同学，我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。（全套教程文末领取哈）
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字，我也为大家准备了视频教程，每个章节都是当前板块的精华浓缩。

在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。（全套教程文末领取哈）

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。（全套教程文末领取哈）

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。（全套教程文末领取哈）

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道，我总结了大模型常考的面试题。（全套教程文末领取哈）

在这里插入图片描述
👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利： 👉👉CSDN大礼包：《最新AI大模型学习资源包》免费分享 👈👈

（👆👆👆安全链接，放心点击）

换掉SFT！强化微调RFT来了，性能炸裂！

RL 阶段

如何学习AI大模型 ？

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

CSDN粉丝独家福利

👉1.大模型入门学习思维导图👈

👉2.AGI大模型配套视频👈

👉3.大模型实际应用报告合集👈

👉4.大模型落地应用案例PPT👈

👉5.大模型经典学习电子书👈

👉6.大模型面试题&答案👈

CSDN粉丝独家福利

如何学习AI大模型？