告别SLM推理瓶颈:ReaLM框架实现自主推理,提升小模型处理复杂任务能力!

ReaLM框架提升小模型推理能力

小型语言模型(SLMs)是大型语言模型(LLMs)的一种成本效益更高的替代方案,但其能力有限,在多步推理过程中容易出错或产生不一致的答案,往往难以处理复杂推理任务。现有的改进方法虽然提升了SLM的性能,但通常要以牺牲以下三个关键方面中的一个或多个为代价:1)有偏的监督会过滤掉错误的推理路径,限制了模型从错误中学习的能力,导致模型推理能力有限;2)过度依赖外部生成的推理步骤,导致模型自主性不强;3)当模型过度拟合教师模型的推理模式时,泛化能力会下降。

为解决上述问题,字节跳动联合中山大学、大连理工大学的研究者们提出一种强化学习框架ReaLM。该框架包括三个组件:

  • 引入多路径过程验证(MRPV),通过对比正向和负向的推理路径来提取关键的决策模式,增强SLM的推理能力;
  • 为了减少对外部指导的依赖,引入渐近式归纳实现自主性(EAAI);
  • 应用引导式思维链蒸馏,将特定领域规则和专家知识编码到SLM的参数中,使其成为模型内在认知的一部分,提高泛化能力。

在垂直领域和通用推理任务上的实验表明,ReaLM能够提升SLM处理复杂推理任务的能力

  • 论文标题:ReaLM: Reflection-Enhanced Autonomous Reasoning with Small Language Models
  • 论文链接:https://arxiv.org/pdf/2508.12387

一、方法

1、多路径过程验证(MRPV)

MRPV通过显式对比正向和负向推理路径并奖励有效反思来提升SLM性能,包括多思维链输入构建和两阶段奖励机制。

(1)多思维链输入构建

如图2(a)所示,给定问题后,通过温度采样(temperature sampling)调用大语言模型**次,生成一组推理路径集合。这些思维链没有经过筛选,既包含正确也包含错误的推理轨迹。尽管错误的思维链会导致不正确的答案,但它们提供了丰富推理过程的替代视角。随后,采样出一个包含条思维链的子集,并将其作为SLM的输入。SLM 生成自己的思维链和最终答案 pred,同时为每个分配一个效用分数(utility scores)。模型输出信息包括pred 和效用分数,用于两阶段奖励函数指导模型优化。

(2)两阶段奖励设计

为了增加答案的正确性和推理质量,研究团队引入了一种两阶段奖励机制,鼓励模型进行显式的反思:

  • 第一阶段(答案监督):根据最终答案的正确性和格式对模型进行奖励。
  • 第二阶段(过程监督):通过将每个外部思维链的结论与真实结果进行比较来评估其效用,引导 ReaLM 反思有价值的路径。其中,外部思维链是来自外部LLM的中间推理步骤(不含最终答案),用作输入特征以引导SLM推理,区别于SLM自身生成的内部思维链。

奖励定义定义如下:

其中,表示 SLM 对的评估是否与中得出的结论匹配。第二阶段奖励仅在第一阶段成功时激活,以此确保训练稳定性。

与简单拼接多条思维链( 这种方式倾向于让模型总结共同采用的推理步骤)不同。研究团队通过两阶段奖励机制显式对比不同思维链间的差异,从而突出关键决策因子。

2、渐近式归纳实现自主性(EAAI)

MRPV虽然能够提升SLM的推理能力,但依赖外部思维链。为了实现独立推理,研究团队引入了EAAI(如图2(a).②所示),这是一种基于课程学习的衰减机制,在训练过程中逐步减少对外部思维链的依赖。

在训练过程中,外部思维链的引入概率随时间呈衰减趋势

**仅当思维链的采样概率低于此阈值时才会被采用,从而确保向独立推理的平滑过渡。**完整算法如算法1所示。

为了保障奖励的稳定性,当采样概率过低时禁用MRPV的第二阶段奖励以防止奖励稀疏化,仅保留第一阶段奖励指导优化过程。

3、引导式思维链蒸馏

为使SLM突破教师模型特定推理模式的局限,并适应于现实领域,研究团队使用专有数据集将领域特定规则蒸馏至SLM中。

(1)工业基准:广告搜索相关性预测

研究团队引入了一个来自商业搜索系统的高质量垂直领域数据集。每个数据点均为四元组,其中comment编码了未公开于通用语料库的专业推理逻辑与专有规则。label采用三元相关性分数(不相关/部分相关/相关)。遵循复杂专有规则制定,其数据分布超出标准LLM预训练范围,可作为具有挑战性的现实场景基准。

(2)具备规则感知的思维链蒸馏

为了将领域特定规则与知识编码至模型参数,如图2(a).①所示,按特定概率将专家注释融入提示。使用通用教师LLM生成规则感知型思维链。这些经过规则增强的思维链将被采样用于后续训练。

如图2(b)所示,研究团队训练了两种模型:

ReaLM-Zero(图2(b)左侧):使用 MRPV 和 EAAI 进行强化学习训练。它作为一个轻量级、完全自主的基线模型。

ReaLM-R1(图2(b)右侧):采用迭代训练构建:首先由ReaLM-Annotator对冷启动数据进行标注,用于监督微调,随后通过强化学习在稳定初始化基础上逐步增强推理能力。

二、评估

研究团队使用温度系数1.5的GPT-4-turbo生成多样化思维链及预测结果。为公平比较,学生SLM模型采用DeepSeek-R1-7B和Qwen2.5-7B两个预训练模型进行初始化,以减少单一初始化带来的偏差。

对于监督微调(SFT)方法,采用DeepSpeed ZeRO Stage 2进行全参数微调。对于强化学习(RL)方法,采用GRPO评估思维链判断和预测。所有实验均在8张80GB显存的A100 GPU上完成。

EAAI使得 ReaLM 能够在不依赖外部思维链(CoT)的情况下执行推理。没有 EAAI 时,ReaLM 仍然需要外部的 CoT 输入。

研究团队在数学推理、事实推理和通用复杂推理、语义匹配任务上评估了ReaLM 的性能,按推理过程中是否提供外部 CoT 进行分组,如表1所示:

  • 在使用外部 CoT 的情况下(白色行),未配置 EAAI 的 ReaLM 模型优于 CoT-Synthesizer 和其他基于 CoT 输入的方法。在 Deepseek-R1-7B 和 Qwen2.5-7B 上分别实现了 4.2% 和 4.1% 的准确率提升。这些结果在基于 CoT 输入的方法中实现新SOTA,展示了 MRPV 出色的合成能力。
  • 在不提供外部 CoT 的情况下(灰色行),完整的 ReaLM 仍表现出强劲的性能。在 Deepseek-R1-7B 和 Qwen2.5-7B 上分别实现了 2.6% 和 2.5% 的平均准确率提升,进一步验证了ReaLM 的有效性。

表2展示了消融实验中的四种变体,各变体在训练阶段采用不同组件组合:完整版ReaLM同时包含MRPV与EAAI模块;若在训练阶段保留多思维链合成但移除过程验证机制,则得到MR变体。

表3中的消融结果根据是否使用EAAI模块(即推理时是否需要外部思维链)进行分组。实验表明:过程验证能持续提升模型性能,在领域内(ID)和领域外(OOD)数据集上均实现准确率提升,说明ReaLM能够通过评估外部思维链的效用来提升推理准确率

表3中MR+EAAI变体的性能显著超越RL方法,表明除过程验证外,在训练阶段让模型接触多推理路径能进一步增强SLM的性能

此外,在表1中,完整版ReaLM(灰色行)与未配置EAAI的ReaLM(白色行)相比性能有所下降。这表明,虽然EAAI能够使模型不依赖外部思维链进行推理并保留部分性能增益,但其潜力仍有待进一步挖掘。

模型在专有规则、未知领域泛化能力的评估如表5所示。ReaLM-Zero始终优于SKIntern和CoT-Synthesizer,表明基于强化学习的框架在处理垂直领域推理任务具有显著优势。

研究团队进一步探究了融入专有规则的影响。实验表明,引入专家评论(expert comments)能够显著提升模型的性能。此外,通过迭代训练流程得到 ReaLM-R1,其性能超越了 ReaLM-Zero 并达到了最高的整体准确率,凸显了冷启动蒸馏后进行强化学习范式的优势。

三、AI大模型学习和面试资源

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值