RLFH短期课程笔记

在学习LLama2的过程中遇到了RLHF方法,介于强化学习内容过多,所以只对RLFH进行系统学习,作如下笔记。

课程笔记

  1. 强化学习的模型和我们的base模型不是同一个,强化学习的模型可以说是一个回归模型——对输入的决策评估优劣,我们用强化学习的输出来更新base模型的参数
  2. RLFH需要两个数据集,偏好数据集和提示数据集。强化学习的模型在偏好数据集上学习,接受 { p r o m p t , w i n C a n d i d a t e , l o s e C a n d i d a t e } \{prompt,winCandidate,loseCandidate\} { prompt,winCandi
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值