GPRO详解

最新推荐文章于 2025-03-17 19:09:36 发布

大多_C

最新推荐文章于 2025-03-17 19:09:36 发布

阅读量1k

点赞数 18

文章标签：人工智能机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46933702/article/details/146067251

版权

GPRO 的奖励评估机制与优势分析

1. GPRO 如何进行奖励评估？

在 GPRO（Group Relative Policy Optimization）训练过程中，奖励评估的核心在于不依赖单独的奖励模型，而是基于一组候选答案的相对评分进行优化。其具体步骤如下：

生成多样化答案
- 给定一个输入 ( x )，模型采用当前策略 ( \pi_\theta ) 生成多个可能的回答 ( y_1, y_2, …, y_n )。
- 这些答案可以通过采样、温度调整、不同解码策略（如 nucleus sampling 或 beam search） 生成。
相对奖励评估（Relative Reward Evaluation）
- 传统 PPO（如 RLHF）方式： 需要训练一个奖励模型 ( R(x, y) ) 以预测回答质量，但这种方法依赖高质量人类标注数据，且奖励模型容易出现偏差。
- GPRO 方式： 不训练奖励模型，而是在一个答案集合中，相互比较答案质量，计算相对分数。
- 具体来说：
  - 设 ( n ) 个生成答案形成一个 group（组）。
  - 通过一个打分策略（可由人类或自动方法提供），对这些答案进行排序。
  - 计算每个答案的相对得分 ( r(y_i) )：
    [
    r(y_i) = f(y_i) - \text{Baseline}
    ]
  - 其中：
    - ( f(y_i) ) 代表某种答案评分方法（例如基于 BLEU、ROUGE、GPT 评估的分数）。
    - Baseline 代表当前 group 中所有答案的平均质量水平，可以是组内样本的均值：
      [
      \text{Baseline} = \frac{1}{n} \sum_{i=1}^{n} f(y_i

最低0.47元/天解锁文章

博客等级

码龄5年

118
原创

781
点赞

772
收藏

781
粉丝

关注

私信

热门文章

最新评论

python:dict常见用法
波波不啵: 那个nxt里面的键值是不是对应错误？
LangChain进行文本摘要总结
曼城周杰伦: 递归总结不太对
python中logging的用法
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh-cn/latest/articles/c1.html 使用原生 loggng封装，兼容性和替换性100%,只需要一行代码大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 1 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、 nb_log 兼容包含loguru色彩模式,loguru只是nb_log的子集之一. 相比 loguru 有10胜。 pip install nb_log 。
表示崩塌（representation collapse）
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
PyTorch 的多进程功能及其常见使用
国槐盛开: 多进程不如多GPU并行：http://www.hbase.cn/archives/1311.html

大家在看

最新文章

2025

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。