Google DeepMind：大模型的高效探索策略

最新推荐文章于 2024-12-12 17:42:51 发布

人工智能大模型讲师培训咨询叶梓

最新推荐文章于 2024-12-12 17:42:51 发布

阅读量1.5k

点赞数 38

分类专栏：人工智能文章标签：深度学习人工智能机器学习 AI 多模态智能体大模型

本文链接：https://blog.csdn.net/weixin_44292902/article/details/140639974

版权

人工智能咨询培训老师叶梓转载标明出处

大模型在处理海量文本数据后表现出了令人瞩目的能力，通过人类反馈进行强化学习（RLHF）能进一步提升了它们的行为表现。Google DeepMind 和斯坦福的研究团队提出了一种新的探索方法，通过主动探索——即定制交互以获得有用的反馈——来提高模型性能，这可能使超人类水平的创造性成为可能。

用于研究探索算法的实验流程基于现有的工具，包括Anthropic数据集和Gemini Nano以及Gemini Pro预训练语言模型，并使用了一个人类反馈模拟器来生成对每个查询的偏好表达。

实验流程分为两个主要部分：学习流程和评估流程。学习流程管理智能体与人类反馈模拟器之间的交互，智能体根据反馈逐步学习和生成查询。评估流程则涉及预训练语言模型、新响应生成模型和人类反馈模拟器之间的交互，用以评估相对性能。

在每个学习周期中，智能体会接收一批提示（prompts），并为每个提示生成一对备选响应。这些查询由智能体制定，并呈现给人类偏好模拟器，该模拟器会表达对两个响应之间的二元偏好。智能体会根据迄今为止观察到的查询和反馈来训练奖励模型，以指导后续的响应选择。

作者提出 "best-of-A" 程序方法：智能体从基础语言模型（Gemini Nano）中采样A个响应，并从这些响应中选择最大化奖励的那一个。这种方法近似于基于策略梯度的优化，但没有其繁琐的计算需求，并且避免了策略梯度方法中通常需要的超参数调整。

评估智能体性能时，是通过与Gemini Nano模型的相对表现来衡量的。一系列提示会从Anthropic Helpfulness Base评估数据集中采样，对于每个提示，Gemini Nano和新响应生成模型都会生成一个响应。人类偏好模拟器会输出其选择智能体响应而不是Gemini Nano生成响应的概率。这些概率在提示上平均，得到智能体的胜率，即智能体响应被偏好的比例。

作者介绍了如何使用B