在学习LLama2的过程中遇到了RLHF
方法,介于强化学习内容过多,所以只对RLFH
进行系统学习,作如下笔记。
课程笔记
- 强化学习的模型和我们的base模型不是同一个,强化学习的模型可以说是一个回归模型——对输入的决策评估优劣,我们用强化学习的输出来更新base模型的参数
RLFH
需要两个数据集,偏好数据集和提示数据集。强化学习的模型在偏好数据集上学习,接受 { p r o m p t , w i n C a n d i d a t e , l o s e C a n d i d a t e } \{prompt,winCandidate,loseCandidate\} { prompt,winCandi