Google DeepMind:大模型的高效探索策略

 人工智能咨询培训老师叶梓 转载标明出处

大模型在处理海量文本数据后表现出了令人瞩目的能力,通过人类反馈进行强化学习(RLHF)能进一步提升了它们的行为表现。Google DeepMind 和斯坦福的研究团队提出了一种新的探索方法,通过主动探索——即定制交互以获得有用的反馈——来提高模型性能,这可能使超人类水平的创造性成为可能。

比较了使用不同探索算法产生的经验结果

用于研究探索算法的实验流程基于现有的工具,包括Anthropic数据集和Gemini Nano以及Gemini Pro预训练语言模型,并使用了一个人类反馈模拟器来生成对每个查询的偏好表达。

实验流程分为两个主要部分:学习流程和评估流程。学习流程管理智能体与人类反馈模拟器之间的交互,智能体根据反馈逐步学习和生成查询。评估流程则涉及预训练语言模型、新响应生成模型和人类反馈模拟器之间的交互,用以评估相对性能。

在每个学习周期中,智能体会接收一批提示(prompts),并为每个提示生成一对备选响应。这些查询由智能体制定,并呈现给人类偏好模拟器,该模拟器会表达对两个响应之间的二元偏好。智能体会根据迄今为止观察到的查询和反馈来训练奖励模型,以指导后续的响应选择。

作者提出 "best-of-A" 程序方法:智能体从基础语言模型(Gemini Nano)中采样A个响应,并从这些响应中选择最大化奖励的那一个。这种方法近似于基于策略梯度的优化,但没有其繁琐的计算需求,并且避免了策略梯度方法中通常需要的超参数调整。

评估智能体性能时,是通过与Gemini Nano模型的相对表现来衡量的。一系列提示会从Anthropic Helpfulness Base评估数据集中采样,对于每个提示,Gemini Nano和新响应生成模型都会生成一个响应。人类偏好模拟器会输出其选择智能体响应而不是Gemini Nano生成响应的概率。这些概率在提示上平均,得到智能体的胜率,即智能体响应被偏好的比例。

作者介绍了如何使用B

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值