阅读论文速记 [持续更新…]

CLoud

Critique-out-Loud Reward Models [pdf]

提出了一种奖励模型训练策略,不同于传统RM抛弃LM Head额外训练一个Reward Head的方式,CLoud保留LM Head并同时对两个头进行训练。
在这里插入图片描述
首先通过SFT让Pretrained LLM具备生成评论的能力,然后在它生成的评论与偏好集上训练出CLoud:

  1. 生成评论上的LM Loss是为了保留住整个模型的生成能力
  2. 将近似Ground Truth评论换成生成评论的操作很正常,减少了训练和推理的不一致(文中解释为on-policy和off-policy)

CLoud的Loss函数:
在这里插入图片描述
最终效果:在这里插入图片描述
相较于传统RM有4、5个百分点的提升。
感觉就是保留住Base LLM的生成能力能提升它的奖励值预测能力。和CoT思路比较像,在输出结果前先输出思考过程,思考过程有利于做出最终决策。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值