人工智能咨询培训老师叶梓 转载标明出处
大模型在处理海量文本数据后表现出了令人瞩目的能力,通过人类反馈进行强化学习(RLHF)能进一步提升了它们的行为表现。Google DeepMind 和斯坦福的研究团队提出了一种新的探索方法,通过主动探索——即定制交互以获得有用的反馈——来提高模型性能,这可能使超人类水平的创造性成为可能。

用于研究探索算法的实验流程基于现有的工具,包括Anthropic数据集和Gemini Nano以及Gemini Pro预训练语言模型,并使用了一个人类反馈模拟器来生成对每个查询的偏好表达。
实验流程分为两个主要部分:学习流程和评估流程。学习流程管理智能体与人类反馈模拟器之间的交互,智能体根据反馈逐步学习和生成查询。评估流程则涉及预训练语言模型、新响应生成模型和人类反馈模拟器之间的交互,用以评估相对性能。
在每个学习周期中,智能体会接收一批提示(prompts),并为每个提示生成一对备选响应。这些查询由智能体制定,并呈现给人类偏好模拟器,该模拟器会表达对两个响应之间的二元偏好。智能体会根据迄今为止观察到的查询和反馈来训练奖励模型,以指导后续的响应选择。
作者提出 "best-of-A" 程序方法:智能体从基础语言模型(Gemini Nano)中采样A个响应,并从这些响应中选择最大化奖励的那一个。这种方法近似于基于策略梯度的优化,但没有其繁琐的计算需求,并且避免了策略梯度方法中通常需要的超参数调整。
评估智能体性能时,是通过与Gemini Nano模型的相对表现来衡量的。一系列提示会从Anthropic Helpfulness Base评估数据集中采样,对于每个提示,Gemini Nano和新响应生成模型都会生成一个响应。人类偏好模拟器会输出其选择智能体响应而不是Gemini Nano生成响应的概率。这些概率在提示上平均,得到智能体的胜率,即智能体响应被偏好的比例。
作者介绍了如何使用B