【DeepSeek论文精读】9. DeepSeek-GRM:推理时扩展的通用奖励建模

欢迎关注[【AIGC论文精读】](https://blog.csdn.net/youcans/category_12321605.html)原创作品
【DeepSeek论文精读】1. 从 DeepSeek LLM 到 DeepSeek R1
【DeepSeek论文精读】5. DeepSeek-V3 技术报告
【DeepSeek论文精读】6. DeepSeek R1:通过强化学习激发大语言模型的推理能力
【DeepSeek论文精读】9. 广义奖励建模的推理时间尺度



0. 论文简介

0.1 基本信息

2025年4月3日,DeepSeek-AI 和清华大学研究团队发表论文,“Inference-Time Scaling for Generalist Reward Modeling(推理时扩展的通用奖励模型)”,提出了一种创新的 “自原则批判调优(Self-Principled Critique Tuning: SPCT)” 技术,使奖励模型在推理阶段能够动态扩展计算资源,显著提升了评判质量。本研究表明 “推理时扩展” 在通用 RM 中的有效性,性能超越训练时扩展。

主要贡献:

  • 提出自约束批判调优(SPCT),一种促进通用奖励建模高效推理时扩展的新方法,并进一步引入元RM以超越投票机制优化扩展性能;

  • 实证验证SPCT显著提升GRM的质量与推理时扩展性,优于现有方法及多个强公开模型;

  • 发现推理时扩展可超越训练时模型规模扩展的效果,为高效LLM优化提供新方向。

论文标题:Inference-Time Scaling for Generalist Reward Modeling
发布时间:2025 年 4 月 [2504.02495]
论文下载:arxiv-2504.02495


0.2 摘要

强化学习(RL)在大规模语言模型(LLM)的后训练阶段已得到广泛应用。近期研究表明,通过强化学习激励LLM的推理能力表明,恰当的学习方法可实现高效的推理时扩展性。强化学习面临的核心挑战在于,如何为超越可验证问题或人工规则的多样化领域任务获取精准的奖励信号。
本研究致力于探索两个关键问题:如何通过增加推理算力来提升通用查询的奖励建模(RM)质量(即通用奖励模型的推理时扩展性),以及如何通过优化学习方法进一步提升性能-算力扩展效率。

在奖励建模方法上,我们采用逐点生成式奖励建模(GRM),该框架兼具处理多类型输入的灵活性及推理时扩展潜力。针对学习方法,我们提出自约束批判调优(SPCT),通过在线强化学习培养GRM的可扩展奖励生成行为——自适应生成评估准则并精准输出批判意见,由此构建出DeepSeek-GRM模型系列。

为实现高效的推理时扩展,我们采用并行采样技术扩展算力利用,并引入元奖励模型指导投票过程以优化扩展性能。实证研究表明:SPCT显著提升了GRM的质量与扩展性,在多项奖励建模基准测试中超越现有方法与模型且未出现严重偏差,其表现甚至优于训练时扩展方案。当前DeepSeek-GRM在部分任务中仍存在挑战,我们相信未来通用奖励系统的研究将能解决这些问题。相关模型将公开发布并开源。

在这里插入图片描述
图1:在所有测试的RM基准上,不同RM的推理时间缩放性能。
结果显示,每种方法最多有 8个样本,我们的方法进一步扩展到 32个样本。非斜体字体表示基于Gemma2-27B的型号。


1. 引言

大型语言模型的显著进展(DeepSeek-AI, 2024b; OpenAI, 2025b)推动了人工智能研究的重大变革,使模型能够执行需要理解、生成和复杂决策能力的任务。近年来,**强化学习(Reinforcement Learning, RL)**作为大型语言模型的后训练方法已被大规模采用,并在人类价值观对齐(Ouyang et al., 2022; Bai et al., 2022a)、长期推理(DeepSeek-AI, 2025; OpenAI, 2025c)和环境适应(OpenAI, 2025a)方面带来了显著改进。**奖励建模(Reward Modeling, RM)**作为强化学习的关键组成部分,对于生成准确的LLM响应奖励信号至关重要。当前研究(Lightman et al., 2024; DeepSeek-AI, 2025)也表明,无论是在训练还是推理阶段,高质量且稳健的奖励信号都能使LLM在特定领域表现出色。

然而,这类高质量奖励信号通常来源于人工设计的明确条件环境(Yao et al., 2022; Xie et al., 2024)或针对可验证问题(如部分数学问题(Hendrycks et al., 2021; Veeraboina, 2023)和编程任务(Jimenez et al., 2024; Zhuo et al., 2025))的手工规则。而在通用领域,奖励生成更具挑战性,因为奖励标准更加多样化和复杂化,且往往缺乏明确的参考或真实基准。因此,通用奖励建模(Generalist Reward Modeling)对于提升LLM在广泛应用中的表现至关重要,无论是从后训练(如大规模RL)还是推理(如RM引导的搜索)角度来看。此外,RM的性能应通过同时增加训练算力和推理算力来提升。

在实践中,要使奖励建模(RM)既具备通用性,又能在推理时高效扩展,存在以下挑战:

  • 通用性要求:(1)适应不同输入类型的灵活性;(2)在多样化领域生成准确奖励的能力。
  • 高效的推理时扩展性要求:(3)在增加推理算力时生成更高质量的奖励信号;(4)学习可扩展的行为,以实现更好的性能-算力扩展。

现有的奖励建模研究展示了多种奖励生成范式,包括标量(scalar)(Cobbe et al., 2021; Wang et al., 2024d; Liu et al., 2024)、半标量(semi-scalar)(Ye et al., 2024; Yu et al., 2025b; Zhang et al., 2025a)和生成式(generative)(Li et al., 2024a; Kim et al., 2024; Vu et al., 2024; Cao et al., 2024; Arabzadeh et al., 2024; Ye et al., 2025; Alexandru et al., 2025; Yu et al., 2025a)方法,以及逐点(pointwise)(Kendall & Smith, 1940; Gao et al., 2023; Yuan et al., 2024; Winata et al., 2025; Guo et al., 2025)和成对(pairwise)(Park et al., 2024; Zheng et al., 2023; Jiang et al., 2023; Wang et al., 2024c; Liu et al., 2025)等评分模式。这些方法本质上决定了RM的输入灵活性和推理时扩展性((1)&(3))。例如:成对RM仅考虑成对响应的相对偏好,无法灵活接受单条或多条响应输入;标量RM难以对同一响应生成多样化的奖励信号,阻碍了基于采样的推理时扩展方法(Snell et al., 2025)获取更好的奖励。

此外,尽管已有多种学习方法(Wang et al., 2024a; Ankner et al., 2024; Wang et al., 2024c; Mahan et al., 2024)被提出以提升奖励质量,但鲜有研究专注于推理时扩展性,或探索奖励生成行为与RM推理时扩展效率之间的关联,导致性能提升有限((2)&(4))。

近期研究(DeepSeek-AI, 2025)表明,恰当的学习方法可实现高效的推理时扩展性,这引发了一个关键问题:能否设计一种学习方法,专门优化通用奖励建模的推理时扩展性?

在本研究中,我们探索了不同的RM方法,发现**逐点生成式奖励建模(Generative Reward Modeling, GRM)**能以纯语言表示统一单条、成对及多条响应的评分,从而解决挑战(1)。我们进一步发现,特定准则(principles)可引导GRM在合理标准下生成奖励,这启发我们:RM的推理时扩展性或许可通过扩展高质量准则和精准批判(critiques)的生成来实现。基于此,我们提出了一种新型学习方法——自约束批判调优(Self-Principled Critique Tuning, SPCT),以培养GRM的高效推理时扩展行为。

通过基于规则的在线强化学习,SPCT使GRM能够自适应地根据输入查询和响应生成准则与批判,从而在通用领域输出更优的奖励(挑战(2))。我们基于Gemma-2-27B(Team, 2024)进行SPCT后训练,得到DeepSeek-GRM-27B。

在推理时扩展方面,我们通过多次采样扩展算力使用:

  • 并行采样使DeepSeek-GRM生成多组不同的准则及对应批判,并通过投票确定最终奖励;
  • 更大规模的采样使模型能基于更高多样性的准则进行更精准判断,输出更细粒度的奖励,从而解决挑战(3)&(4)。
  • 此外,我们还训练了一个**元奖励模型(meta RM)**以优化投票过程的扩展性能。

实证研究表明:

  • SPCT显著提升了GRM的质量和扩展性,在多个综合RM基准测试中超越现有方法和模型,且未出现严重领域偏差;
  • DeepSeek-GRM-27B的推理时扩展性能与参数量达671B的更大模型相比,仍能实现更优表现,甚至超越训练时扩展的模型规模优势。

尽管当前方法在效率和特定任务中仍面临挑战,但我们相信,通过SPCT的进一步优化,具备增强扩展性和效率的GRM可成为通用奖励系统的多功能接口,推动LLM后训练与推理的前沿发展。

主要贡献:

  • 提出自约束批判调优(SPCT),一种促进通用奖励建模高效推理时扩展的新方法,并进一步引入元RM以超越投票机制优化扩展性能;

  • 实证验证SPCT显著提升GRM的质量与推理时扩展性,优于现有方法及多个强公开模型;

  • 发现推理时扩展可超越训练时模型规模扩展的效果,为高效LLM优化提供新方向。


2. 预备知识

2.1 不同奖励建模方法的比较

如图2所示,奖励建模(RM)方法主要由奖励生成范式和评分模式决定,这两者本质上影响着RM的推理时扩展性和输入灵活性。


在这里插入图片描述
图2:奖励生成的不同范式,包括 (a)标量式、(b)半标量式 和 ©生成式 方法,以及不同的评分模式,包括 (i)逐点式 和 (ii)成对式 方法。
我们列出了每种范式的代表性方法,并标注了其对应的推理时扩展性(是否可通过多次采样获得更好的奖励)和输入灵活性(是否支持对单条及多条响应进行评分)。


奖励生成范式可分为三种主要方法:

  • 标量式(scalar):为给定查询和响应分配标量值;
  • 半标量式(semi-scalar):生成文本化评判(称为"批判",critique)及标量奖励值;
  • 生成式(generative):仅生成文本化批判作为奖励,从中可提取奖励值。

评分模式分为两种主要方法:

  • 逐点式(pointwise):为每个响应分配独立分数;
  • 成对式(pairwise):从所有候选响应中选出单一最佳响应。

为扩展推理阶段的算力利用,我们聚焦于基于采样的方法——对同一查询和响应生成多组奖励并聚合结果。其中:

  • 标量RM因奖励生成不可变,多数情况下无法通过多次采样提升奖励质量;
  • 输入灵活性取决于RM是否支持对单条、成对及多条响应评分。成对RM难以评分单条响应,通常需额外技术(Jiang et al., 2023; Liu et al., 2025)处理多条响应。

逐点生成式奖励建模(GRM)的公式化表示为:

在这里插入图片描述
其中: x x x 为查询, y i y_i yi 为第i条响应; r θ r_θ rθ是由参数 θ 定义的奖励函数; R R R 为奖励值, C C C 为批判文本; S i S_i Si y i y_i yi 的独立分数(默认取离散值 S i ∈ N , 1 ≤ S i ≤ 10 S_i \in N, 1≤S_i≤10 SiN,1Si10); f e x t r a c t ( ⋅ ) f_{extract}(·) fextract()从生成结果中提取奖励值。(完整分析见附录C.1)


2.2 基于准则提升奖励质量

通用奖励建模(RM)需在缺乏明确参考或真实基准的多样化复杂领域(Hendrycks et al., 2021; Jimenez et al., 2024)生成高质量奖励。为此,我们采用**准则(principles)**替代人工规则指导奖励生成。准则最初见于 Constitutional AI(Bai et al., 2022b; Sharma et al., 2025),是引导LLM或人工分类器构建安全数据管线的人工标准。引入准则后,GRM的奖励生成变为:

在这里插入图片描述

其中, { p i } i = 1 m \{p_i\}^m_{i=1} {pi}i=1m 表示准则集。

我们通过初步实验验证准则对奖励质量的影响:

  • 数据集:Reward Bench的Chat Hard子集(Lambert et al., 2024)和PPE基准的IFEval子集(Frick et al., 2025);
  • 方法:使用GPT-4o-2024-08-06生成准则,对每个样本进行4次逐点奖励生成,筛选与真实奖励对齐的准则;
  • 对比组:
    • 模型自生成准则
    • 筛选后的优质准则
    • 无准则引导的默认设置

如表1 所示,实验结果显示:(细节见附录D)

  • 自生成准则对性能提升有限;
  • 筛选后的准则能显著提高奖励质量。
  • 这表明正确引导的准则能更有效指导奖励生成。

![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/64949008922845319151a3eb103748cd.png)

3. 自原则批判调优(Self-Principled Critique Tuning, SPCT)

基于初步实验结果,我们开发了一种新的逐点生成式奖励建模(GRM)方法,旨在学习生成自适应且高质量的准则,从而有效引导批判生成,称为自约束批判调优(Self-Principled Critique Tuning, SPCT)。
如图3所示,SPCT包含两个阶段:

  • 拒绝式微调(Rejective Fine-Tuning):作为冷启动阶段;
  • 基于规则的在线强化学习(Rule-Based Online RL):通过优化生成的准则和批判,强化通用奖励生成能力。
    SPCT同时促进GRM在推理时扩展中的这些行为。

在这里插入图片描述
图3:SPCT的说明,包括拒绝微调、基于规则的RL以及推理过程中相应的可扩展行为。
推理时间缩放是通过朴素投票或元RM引导的投票实现的,投票原则是按比例生成的,从而在扩展的价值空间内产生更细粒度的结果奖励。


3.1 从准则理解到准则生成

根据第 2.2 节的初步实验,我们发现恰当的准则可以在特定标准下引导奖励生成,这对高质量奖励至关重要。然而,大规模生成适用于通用RM的有效准则仍具挑战性。为解决这一问题,我们提出将准则从理解阶段解耦并整合到生成过程中,即将准则视为奖励生成的一部分,而非预处理步骤。

形式上,当准则预定义时,奖励生成遵循公式(2)。而GRM可以自行生成准则,并基于这些准则生成批判,其形式化表示为:

在这里插入图片描述
其中: p θ p_θ pθ 是由 θ θ θ 参数化的准则生成函数,与奖励生成函数 r θ r_θ rθ 共享同一模型;

这一转变使准则能够基于输入查询和响应动态生成,自适应地对齐奖励生成过程;通过GRM的后训练,准则及其对应批判的质量和细粒度可进一步提升。大规模生成准则使GRM能够在更合理的标准下输出奖励,并具备更细粒度的判别能力,这对推理时扩展同样至关重要。


3.2 基于规则的强化学习

为同步优化GRM中的准则和批判生成,我们提出 SPCT,它结合了拒绝式微调和基于规则的强化学习,前者作为冷启动阶段。


拒绝式微调(冷启动)
该阶段的核心目标是使GRM能够生成格式正确且适应多样化输入类型的准则和批判。与先前工作(Vu et al., 2024; Cao et al., 2024; Alexandru et al., 2025)不同——它们混合了单条、成对及多条响应的RM数据——我们采用第2.1节介绍的逐点GRM,以统一格式灵活生成任意数量响应的奖励。
数据构建:除通用指令数据外,我们从具有不同响应数量的RM数据中采样查询及对应响应,利用预训练GRM生成轨迹。每个查询及响应组合采样 NRFT次。拒绝策略:剔除预测奖励与真实值不符(错误)的轨迹;剔除所有NRFT次采样均正确(过于简单)的查询及响应组合。
形式化定义:设 r i r_i ri 表示查询 x 的第 i 条响应 y i y_i yi 的真实奖励,预测的逐点奖励 { S i } i = 1 n \{S_i\}^n_{i=1} {Si}i=1n 正确的条件为:
在这里插入图片描述

以确保真实奖励仅包含一个最大值。

然而,与先前研究(Zhang et al., 2025a)类似,我们发现预训练GRM在有限采样次数内难以对部分查询及响应生成正确奖励。因此,我们可选地在GRM的输入提示中附加 argmaxl{rl}nl=1(称为提示采样,hinted sampling),期望预测奖励与真实值对齐(同时保留非提示采样)。
提示采样:每个查询及响应组合采样一次,仅当预测错误时拒绝轨迹。与非提示采样相比,提示采样的轨迹有时会简化批判生成(尤其在推理任务中),这表明在线RL对GRM的必要性和潜在益处。


基于规则的强化学习
GRM通过基于规则的在线RL进一步微调。具体采用GRPO(Shao et al., 2024)的原始框架,但使用基于规则的结果奖励。
** rollout阶段**:GRM基于输入查询和响应生成准则及批判,提取预测奖励后通过准确性规则与真实值对比;
与DeepSeek-AI(2025)的区别:不使用格式奖励,而是应用更大的KL惩罚系数以确保格式一致性并避免严重偏差。
形式化定义:对于查询 x 和响应 { y i } i = 1 n \{y_i\}^n_{i=1} {yi}i=1n,第 i 个输出 o i o_i oi 的奖励为:

在这里插入图片描述

其中: { S i } i = 1 n \{S_i\}^n_{i=1} {Si}i=1n o i o_i oi 中提取。

该奖励函数鼓励GRM通过在线优化的准则和批判区分最佳响应,从而支持高效的推理时扩展;奖励信号可无缝从任何偏好数据集或标注的LLM响应中获取。


4. 推理时扩展(Inference-Time Scaling with SPCT)

为了进一步提升DeepSeek-GRM在通用奖励生成方面的性能,我们探索了基于采样的策略来实现有效的推理时扩展。先前工作中的推理时扩展方法(Wang et al., 2024c; Ankner et al., 2024; Mahan et al., 2024; Zhang et al., 2025a)及其潜在局限性已在附录C.1中进行了分析。

  1. 通过生成奖励进行投票( Voting with Generated Rewards )

回顾第2.1节中的方法,逐点GRM的投票过程定义为对奖励进行求和:
在这里插入图片描述
其中 S i ∗ S^∗_i Si表示第 i 个响应 ( i = 1 , . . . , n ) (i=1,...,n) (i=1,...,n) 的最终奖励。由于 S i , j S_{i,j} Si,j 通常设置在一个较小的离散范围内(例如{1,…,10}),投票过程实际上将奖励空间扩展了 k k k 倍,并使 GRM 能够生成大量准则,这有利于最终奖励的质量和细粒度。一个直观的解释是,如果每个准则可以被视为判断视角的代理,那么更多的准则可以更准确地反映真实分布,从而实现扩展效果。值得注意的是,为了避免位置偏差并增加多样性,在采样前会对响应进行随机排序。

  1. 元奖励建模引导的投票(Meta Reward Modeling Guided Voting)

DeepSeek-GRM的投票过程需要进行多次采样,而由于随机性或模型限制,少数生成的准则和批判可能存在偏差或质量较低。因此,我们训练了一个元奖励建模来引导投票过程。
该元奖励建模是一个逐点标量RM,通过二元交叉熵损失进行训练,用于识别DeepSeek-GRM生成的准则和批判的正确性,其中标签基于公式(4)确定。数据集包含RFT阶段非提示采样获得的轨迹,以及从待引导的DeepSeek-GRM中采样的轨迹,这样既能提供足够的正负奖励,又能缓解Chow等人(2025)提出的训练策略与推理策略之间的差距。
引导投票过程很简单:元奖励建模为 k 个采样奖励输出元奖励,最终结果由具有最高 k m e t a ≤ k k_{meta}≤k kmetak 个元奖励的奖励进行投票,从而过滤掉低质量样本。


5. 实验结果与分析

5.1 实验设置

基准测试与评估指标
我们在不同领域的多个RM基准测试上评估了各种方法的性能:RewardBench(Lambert等人,2024)、PPE(Frick等人,2025)、RMB(Zhou等人,2025)、ReaLMistake(Kamoi等人,2024)。
对每个基准测试使用标准评估指标:在RewardBench、PPE和RMB中从一组响应中选取最佳响应的准确率,以及ReaLMistake的ROC-AUC指标。为处理多个响应预测奖励相同的情况,我们对响应进行随机排序后通过 a r g m a x i S i argmax_iS_i argmaxiSi 确定最佳响应,其中 S i S_i Si 是重新排序后第i个响应的预测奖励。详见附录D。

方法实现
对于基线方法,我们基于Gemma-2-27B(Team,2024)重新实现了LLM-as-a-Judge(Zheng等人,2023)、DeepSeek-BTRM-27B(Kendall&Smith,1940)、CLoud-Gemma2-27B(Ankner等人,2024)和DeepSeek-PairRM-27B(Jiang等人,2023),所有训练数据和设置均与DeepSeek-GRM保持一致。
对于我们的方法,我们在Gemma-2-27B上实现了DeepSeek-GRM-27B-RFT,并在不同规模的LLM上实现了DeepSeek-GRM,包括DeepSeek-V2-Lite(16B MoE)(DeepSeek-AI,2024a)、Gemma-2-27B、DeepSeek-V2.5(236B MoE)和DeepSeek-V3(671B MoE)(DeepSeek-AI,2024b)。元RM基于Gemma-2-27B训练。默认结果采用贪婪解码报告,推理时扩展使用temperature=0.5。其他细节见附录C.2。


5.2 结果与分析

总体结果
RM基准测试性能表现 表2展示了不同方法和模型在RM基准测试上的总体结果。
我们将DeepSeek-GRM-27B与公开模型的报告结果以及复现的基线方法结果进行比较。发现DeepSeek-GRM-27B在整体性能上优于基线方法,并与Nemotron-4-340B-Reward和GPT-4o等强力公开RM达到相当水平;通过推理时扩展,DeepSeek-GRM-27B能进一步提升并取得最佳整体结果。具体来看,标量(DeepSeek-BTRM-27B、DeepSeek-PairRM-27B)和半标量(CLoud-Gemma2-27B)RM在不同基准测试中表现出明显偏差,在可验证任务(PPE Correctness)上性能显著优于所有生成式RM,但在其他基准测试中分别存在不足。值得注意的是,多数公开标量RM也表现出严重的领域偏差。LLM-as-a-Judge与DeepSeek-GRM-27B趋势相似但性能较低,可能由于缺乏准则引导。
综上,SPCT显著提升了GRM的通用奖励生成能力,相比标量和半标量RM具有更小的偏差。


![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/d006b42979ff40c4af70bcc7405c33e3.png) *表2:不同方法和模型在RM基准测试上的总体结果。带下划线的数字表示最佳性能,加粗数字表示基线方法和我们方法中的最佳性能,斜体字体表示标量或半标量RM。对于元RM引导投票(MetaRM),$k_{meta}=\frac{1}{2}k$ 。*

推理时扩展性
表3展示了不同方法的推理时扩展结果,整体趋势如图1所示(详见附录D.3)。
在最多8次采样时,DeepSeek-GRM-27B相比贪婪解码和采样结果获得最高性能提升。DeepSeek-GRM-27B进一步显示出通过更大推理计算量(最多32次采样)提升性能的潜力。元RM在各基准测试中也展现出过滤低质量轨迹的有效性。通过词元概率投票的LLM-as-a-Judge也表现出显著性能提升,表明词元概率作为量化权重可提升简单多数投票的可靠性。对于CLoud-Gemma2-27B,尽管批判内容变化较大,但由于标量奖励生成缺乏方差,性能提升有限。
总之,SPCT改善了GRM的推理时扩展性,而元RM进一步提升了整体扩展性能。


在这里插入图片描述


消融研究
表4展示了所提SPCT各组成部分的消融研究结果(详细数据见附录D.3)。
出乎意料的是,即使没有基于拒绝采样批判数据的冷启动,经过在线RL后通用指令调优的GRM仍能显著提升性能(66.1→68.7)。同时,非提示采样似乎比提示采样更重要,可能由于提示采样轨迹中出现的捷径现象。这说明在线训练对GRM的重要性。与先前工作(Cao等人,2024)一致,我们确认通用指令数据对GRM性能至关重要。研究发现准则生成对DeepSeek-GRM-27B的贪婪解码和推理时扩展性能都起关键作用。对于推理时扩展,元RM引导投票在不同kmeta下均表现出鲁棒性。关于通用RM性能的进一步分析(包括输入灵活性、训练数据领域泛化等)见附录E。


扩展推理与训练成本
我们通过在不同规模LLM上进行后训练,进一步研究了DeepSeek-GRM-27B在推理时和训练时的扩展性能。模型在Reward Bench上的测试结果如 图4所示。
发现DeepSeek-GRM-27B通过32次采样的直接投票即可达到与671B MoE模型相当的性能,而元RM引导投票仅需 8次采样即可取得最佳结果,证明相比扩展模型规模,DeepSeek-GRM-27B的推理时扩展更具效益。
此外,我们在包含300个样本的下采样测试集上测试DeepSeek-R1,发现其性能甚至低于236B MoE RFT模型,表明扩展长思维链并不能显著提升通用RM在推理任务中的性能。


在这里插入图片描述

图4:Reward Bench 基准上的推理时间缩放性能与训练时间缩放性能。


6. 相关工作

生成式奖励模型 GRMs代表了从标量RMs(Ouyang等人,2022)的范式转变,将奖励建模为文本反馈或分数(Li等人,2024a;Kim等人,2024;Wang等人,2024c;Cao等人,2024;Vu等人,2024;Alexandru等人,2025),实现了更丰富的奖励表示和更灵活的单条/多条响应评判。早期的LLM-as-a-judge方法(Zheng等人,2023)支持基于参考或无参考的成对评判来评估LLMs。近期研究使用离线RL(如DPO(Rafailov等人,2023))训练GRMs(Wu等人,2024;Mahan等人,2024;Yu等人,2025a;Ye等人,2025),将工具和外部知识与GRMs结合(Li等人,2024b;Peng等人,2025),甚至训练GRMs作为调整环境奖励的接口(Baker等人,2025)。尽管这些方法面临效率挑战,但它们展现了大规模改进奖励的潜力,推动着更通用的奖励系统发展。

LLMs的推理时扩展 与训练时扩展LLMs并行的关键研究方向是LLMs的推理时扩展研究。研究聚焦于采样和RM引导的聚合(Lightman等人,2024;Brown等人,2024;Snell等人,2025;Wu等人,2025)。近期,由LLMs激励的长视野思维链(Wei等人,2022)作为另一种推理时扩展形式,在提升模型推理能力方面展现出前景(OpenAI,2024;DeepSeek-AI,2025;OpenAI,2025c)。还有研究使用可扩展奖励或验证器来提升策略模型在编程(Chen等人,2023)、推理(Lifshitz等人,2025)等领域的性能。因此,本工作中推理时可扩展通用RMs的发展也可能通过推理时协同扩展促进策略模型的整体性能。


7. 结论与未来工作

我们提出了自约束批判调优(SPCT),这是一种增强通用奖励建模推理时扩展性的方法。
通过基于规则的在线RL,SPCT实现了准则和批判的自适应生成,显著提升了GRMs在多领域的奖励质量和推理时扩展性。
实证结果表明DeepSeek-GRM超越基线方法和多个强力公开RM,并通过推理时扩展(特别是元RM引导)展现出显著改进。

未来方向包括:

  • 将GRMs集成到在线RL流程作为奖励系统的多功能接口;
  • 探索与策略模型的推理时协同扩展;
  • 或作为基础模型的稳健离线评估器。

伦理声明
我们提出的SPCT方法旨在增强生成式奖励模型(GRMs)在通用领域的推理时扩展性。尽管这一进展促进了奖励建模的准确性和一致性,仍有若干伦理影响需要明确考量:
首先,尽管实证分析表明DeepSeek-GRM在不同领域偏差较小,但当训练数据存在毒性时,自动生成的准则和批判可能无意间延续或放大偏见。我们认为应优先研究元RM和其他偏差缓解策略以确保公平结果。同时,我们的方法不旨在削弱人工监督,而是倡导保持"人在循环"框架,并开发SPCT等可靠代理方法来更高效地扩展人工监督。
其次,推理时可扩展GRMs在多样化领域的应用扩展可能引发透明度、问责制等方面的担忧。我们在5.2节展示了模型能力,在附录B说明了局限性,并将模型开源接受公众监督,这对保持信任和确保负责任部署至关重要。
最后,跨不同RM基准和实际场景的稳健验证与持续警惕仍然关键。DeepSeek-GRM的伦理使用需要主动管理风险并持续评估偏差,这要求加强RM评估研究方面的努力。


附录

附录. A 补充相关工作

宪法人工智能
宪法人工智能已成为传统人类反馈强化学习(Ouyang等人,2022)的可扩展替代方案,旨在通过一套指导原则或"宪法"(Bai等人,2022b;Sun等人,2023)使语言模型与人类价值观对齐,用基于这些手工原则的AI生成反馈(Fränken等人,2024)或分类器(Sharma等人,2025)取代人类批判。类似地,基于规则的方法如Sparrow(Glaese等人,2022)和基于规则的奖励(Mu等人,2024)将显式自然语言规则纳入特定领域(如安全性)的训练循环。虽然有效,但这些方法依赖静态、人工编写的宪法,存在范围有限、潜在偏见和缺乏灵活性的问题。这激发了自动化生成或优化原则的研究兴趣,与本文目标一致。

标量奖励模型
标量奖励模型最早被提出作为人类反馈的代理模型(Stiennon等人,2020;Gao等人,2023)。近期研究聚焦Bradley-Terry建模(Kendall & Smith,1940)和其他回归方法以增强标量奖励模型的表达能力(Cai等人,2024;Wang等人,2024d,a;Liu等人,2024;Wang等人,2025)。与这些结果奖励模型不同,过程奖励模型被提出作为数学等推理问题的步骤验证器,提供丰富反馈(Cobbe等人,2021;Wang等人,2024b;Zhang等人,2025b),证明了标量RM在具有广泛推理和知识的正式领域的可行性。标量RM优势在于简单性和计算效率,但表达能力有限,难以泛化到多样化输入类型或在推理时优化奖励信号。

半标量奖励模型
半标量奖励模型旨在通过文本中间表示丰富标量奖励信号(Ye等人,2024;Ankner等人,2024)。因此,研究(Yu等人,2025b)提出提升生成批判的质量以最终改进奖励生成。部分研究使用词元概率替代标量头提取奖励(Mahan等人,2024;Zhang等人,2025a)。这些工作表明半标量RM在基于采样和投票的推理时扩展面临挑战,性能提升有限。半标量方法在效率与效果上对标量RM和GRM进行了折中。


附录. B 局限性与未来方向

局限性
尽管SPCT显著提升了GRM的性能和推理时扩展性,并在通用领域超越(半)标量RM,仍存在若干局限:

  1. 生成式RM的效率天然大幅落后于同规模标量RM,阻碍其在在线RL流程的大规模应用。但由于采用并行采样进行推理时扩展,合理采样量(如8次)的奖励生成延迟不会显著增加。LLM高效生成和RM应用创新方面的研究可缓解该问题。
  2. 在可验证任务等特定领域,DeepSeek-GRM仍落后于标量模型。这可能因为标量RM能捕捉推理查询和响应的隐藏特征,而GRM需要更强推理能力来全面检验响应。但标量RM存在严重偏差和扩展性问题。对GRM而言,基于参考的奖励生成(附录E.1.3)和长视野推理(附录D.3)可缓解该局限。
  3. 由于逐点GRM方法的通用性,DeepSeek-GRM除作为结果RM外,还可能作为过程RM使用。尽管本文未深入探索该方向,在Reward Bench推理子集(主要为MATH-prm数据(Lightman等人,2024))的表现部分支持该应用潜力。

未来方向
基于SPCT或DeepSeek-GRM模型有几个有前景的研究方向:

  1. 工具整合可增强DeepSeek-GRM(Li等人,2024b)。通过代码解释器和搜索引擎等工具,生成批判对需要严格流程或广泛知识的任务更准确,避免GRM在数值计算、模式匹配等相关原则上的失误。
  2. 准则和批判的生成范式可分解为独立阶段:准则可预先为每个查询和待评分响应生成并存储,批判则通过GRM、规则或其他代理方法生成。准则生成作为后续批判的接口,可提升当前GRM在RL流程集成的效率。
  3. DeepSeek-GRM或可用于LLM离线评估。由于每条准则反映一个标准,可从所有数据点获取特定LLM的劣势标准,作为其弱点的可解释协议。
  4. DeepSeek-GRM或受益于长视野推理,但会进一步影响效率。这些方向需在未来工作中研究。

在这里插入图片描述
图5:SPCT管道中 DeepSeek GRM RFT、DeepSeek GRUM 和 Meta RM的推导说明。



版权声明:
本文由 youcans@xidian 对论文 “Inference-Time Scaling for Generalist Reward Modeling(推理时扩展的通用奖励模型)” 进行摘编和翻译。该论文版权属于原文作者,本译文只供研究学习使用。

youcans@xidian 作品,转载必须标注原文链接:
【DeepSeek论文精读】9. DeepSeek-GRM:推理时扩展的通用奖励建模
Copyright 2024 youcans, XIDIAN
Crated:2025-04

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

youcans_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值