对deep sick R1的论文看法

deep sick r1网络模型在比对图上性能对齐OpenAI的OE版本,我很好奇,于是看一下他们开源和论文。

本文主要解读deep sick分享的模型技术,其中有数据冷启动(这数据是直接用他们的早期v1模型生成的)和多阶段训练,深度强化学习模型的贡献和自学习推理能力,最终让强化学习算法实现的模型自适应训练和自我进化过程。

用准确性和格式性奖励来评估模型性能,在冷启动过程中加入少量数据提高模型性能的方法,奖励黑客过程IO的算法,净化过程。

本来是基于一个微型大模型的微调 ,他只是一个回答器,做出多轮回答,没有推理也不会去做test time的一个listening,自我的思考,在R1的训练过程中,自我思考的时间就开始变长了 。

同时在这个训练过程中问一个问题 ,他会进行一个推理 ,自己给出一个答案之后 他会觉得这个答案不够细致, 他会推翻自己再来一遍 ,但也有改进的空间-可读性很差

为了解决这个语言的可读性差 于是搞了冷启动强化学习,在这个启动过程中能不能加上少量数据 提高性能和收敛速度,设计强化学习中使用语言一致性奖励的方法(额外奖励,但性能降低),2.3.3版本中,用IO的一个CBD去收集下一轮的数据client sft,数据产生是基于RL的checkpoint,断点去进行一个拒绝采样去收集,从推理生成推理轨迹(600k条,还有非推理的,不然人看不懂)后面就是做一些消融实验 ,期间发生了一些不成功的尝试 比如PIM和RLHF

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值