GPRO详解

GPRO 的奖励评估机制与优势分析

1. GPRO 如何进行奖励评估?

在 GPRO(Group Relative Policy Optimization)训练过程中,奖励评估的核心在于不依赖单独的奖励模型,而是基于一组候选答案的相对评分进行优化。其具体步骤如下:

  1. 生成多样化答案

    • 给定一个输入 ( x ),模型采用当前策略 ( \pi_\theta ) 生成多个可能的回答 ( y_1, y_2, …, y_n )。
    • 这些答案可以通过采样、温度调整、不同解码策略(如 nucleus sampling 或 beam search) 生成。
  2. 相对奖励评估(Relative Reward Evaluation)

    • 传统 PPO(如 RLHF)方式: 需要训练一个奖励模型 ( R(x, y) ) 以预测回答质量,但这种方法依赖高质量人类标注数据,且奖励模型容易出现偏差。
    • GPRO 方式: 不训练奖励模型,而是在一个答案集合中,相互比较答案质量,计算相对分数。
    • 具体来说:
      • 设 ( n ) 个生成答案形成一个 group(组)。
      • 通过一个打分策略(可由人类或自动方法提供),对这些答案进行排序。
      • 计算每个答案的相对得分 ( r(y_i) ):
        [
        r(y_i) = f(y_i) - \text{Baseline}
        ]
      • 其中:
        • ( f(y_i) ) 代表某种答案评分方法(例如基于 BLEU、ROUGE、GPT 评估的分数)。
        • Baseline 代表当前 group 中所有答案的平均质量水平,可以是组内样本的均值:
          [
          \text{Baseline} = \frac{1}{n} \sum_{i=1}^{n} f(y_i
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值