Let’s Verify Step by Step
openai的经典论文,发布于2023年5月31日,为当前openai-o1奠定了技术基础,同时开源了PRM800K数据集,为开源社区贡献了十分宝贵的参考
paper原文链接 : https://arxiv.org/abs/2305.20050
论文概述
当前LLM的缺点
即使当前最好的模型也经常会产生逻辑错误,需要训练更加可靠的LLM
以前的方法是怎么处理的?
在openai之前,结果监督和过程监督方法就已经存在,但是他们仍然会存在一些问题从而无法训练出更加可靠的LLM
论文的贡献
- 过程监督比结果监督更好
- 大的奖励模型效果更好
- 主动学习( active learning)可以提高过程监督的数据效率
- 开源PRM800K数据集
Method
论文的重心放在了generator和Reward model的构造
best-of-Nÿ