Google DeepMind:大模型的高效探索策略

 人工智能咨询培训老师叶梓 转载标明出处

大模型在处理海量文本数据后表现出了令人瞩目的能力,通过人类反馈进行强化学习(RLHF)能进一步提升了它们的行为表现。Google DeepMind 和斯坦福的研究团队提出了一种新的探索方法,通过主动探索——即定制交互以获得有用的反馈——来提高模型性能,这可能使超人类水平的创造性成为可能。

比较了使用不同探索算法产生的经验结果

用于研究探索算法的实验流程基于现有的工具,包括Anthropic数据集和Gemini Nano以及Gemini Pro预训练语言模型,并使用了一个人类反馈模拟器来生成对每个查询的偏好表达。

实验流程分为两个主要部分:学习流程和评估流程。学习流程管理智能体与人类反馈模拟器之间的交互,智能体根据反馈逐步学习和生成查询。评估流程则涉及预训练语言模型、新响应生成模型和人类反馈模拟器之间的交互,用以评估相对性能。

在每个学习周期中,智能体会接收一批提示(prompts),并为每个提示生成一对备选响应。这些查询由智能体制定,并呈现给人类偏好模拟器,该模拟器会表达对两个响应之间的二元偏好。智能体会根据迄今为止观察到的查询和反馈来训练奖励模型,以指导后续的响应选择。

作者提出 "best-of-A" 程序方法:智能体从基础语言模型(Gemini Nano)中采样A个响应,并从这些响应中选择最大化奖励的那一个。这种方法近似于基于策略梯度的优化,但没有其繁琐的计算需求,并且避免了策略梯度方法中通常需要的超参数调整。

评估智能体性能时,是通过与Gemini Nano模型的相对表现来衡量的。一系列提示会从Anthropic Helpfulness Base评估数据集中采样,对于每个提示,Gemini Nano和新响应生成模型都会生成一个响应。人类偏好模拟器会输出其选择智能体响应而不是Gemini Nano生成响应的概率。这些概率在提示上平均,得到智能体的胜率,即智能体响应被偏好的比例。

作者介绍了如何使用Bradley-Terry选择模型来模拟人类如何在响应之间做出选择。这个模型基于每个查询的评分来采样偏好,而用于此模拟器的奖励模型则拟合了Anthropic数据集。

顺序查询和学习流程的示意图

通过图2和算法1提供了学习流程的详细视图,说明了智能体和模拟器之间的交互,包括传输和接收的数据。图3和算法2则展示了评估阶段的流程,进一步阐明了如何评估智能体的性能。

评估代理性能的流程图。描述了如何通过采样提示并从不同的模型生成响应来测量性能

作者介绍了奖励模型的架构和训练方法。奖励模型是指导智能体选择响应的关键组件,作者探讨了点估计奖励模型和认知神经网络(ENN)奖励模型两种类型。点估计模型为每个提示-响应对分配一个确定的奖励值,而ENN模型则引入了一个额外的认知指数,通过从参考分布中采样这个指数,引入了奖励的随机性,以模拟对奖励的认知不确定性。

奖励模型如何接受Gemini Nano语言模型的最后一层嵌入作为输入,并为提示-响应对分配奖励

点估计模型采用前馈多层感知器(MLP),输入是Gemini Nano语言模型的最后一层嵌入,输出是一个标量奖励值。训练这个模型时,使用了交叉熵损失函数,目标是最小化模型预测的偏好和实际偏好之间的差异,同时通过L2正则化来防止模型过拟合。

ENN模型用于模拟对奖励的认知不确定性。ENN通过最小化损失函数来获得参数,这个损失函数包括一个正则化项,它将参数向初始参数向量拉近,以保持训练后认知指数的多样性。ENN模型的输出是一个概率分布,反映了对人类评价者偏好第一个响应而非第二个响应的概率。

智能体在每个交互周期结束时,将收集到的数据点插入到先进先出(FIFO)的重放缓冲区中。然后,使用随机小批量数据从重放缓冲区中进行随机梯度下降(SGD)步骤,通过ADAM算法自适应调整学习率。

作者还阐述了用于实证研究的一系列探索算法。这些算法是高效探索大型语言模型(LLMs)的关键组成部分,它们决定了智能体如何生成查询以及如何选择响应对:

被动探索
这是目前强化学习从人类反馈(RLHF)系统中常见的探索方式。在被动探索中,智能体简单地从语言模型中采样响应对,而没有利用任何关于预期奖励的信息。这种方法简单,但在获取有效反馈方面可能不是最优的。

主动探索
与被动探索相对的是主动探索,它利用了从过去反馈中学到的奖励模型来指导响应的选择。主动探索的目的是通过更有目的性的查询选择来加速学习过程。

利用认知神经网络(ENN)来进行主动探索,智能体在选择响应对时,不仅考虑了预期奖励,还考虑了关于奖励的不确定性。ENN通过从参考分布中采样认知指数,为每个提示-响应对生成一个奖励分布,从而允许智能体评估不同响应对的不确定性。

Infomax算法通过生成多个响应候选,然后从ENN中采样多个认知指数,计算每个响应对的偏好概率的样本方差,来选择那些不确定性最大的响应对。这种方法旨在最大化反馈的信息量,从而使智能体能够通过探索来获得更有价值的数据。通过这种方式,智能体可以更有效地利用人类反馈来改进其决策过程,从而在语言模型的训练中做出更优的响应选择。这种探索策略在实验中显示出了其在提高模型性能方面的潜力,尤其是在处理复杂任务和需要深入探索的场景中。


双重Thompson采样(Double Thompson Sampling,简称Double TS)是表现最佳的探索算法。与Infomax不同,Double TS专注于选择每一对响应都有成为最优响应的概率。该算法通过采样两个认知指数,并选择在这些指数下预期奖励最大的响应对。如果采样的认知指数相同,它会重新采样第二个响应,直到与第一个不同,或者达到一定的尝试次数后随机选择。

作者展示了他们的实验结果,这些结果量化了不同探索算法在提高大型语言模型(LLMs)性能方面的有效性。实验的目的是评估和比较被动探索与主动探索策略,尤其是在使用人类反馈来优化模型时的效果。

作者首先评估了不同探索算法在多个交互周期中的性能。实验设置中,每个智能体在每个周期开始时接收一批提示,并为每个提示生成一对响应来形成查询。然后这些查询被提交给偏好模拟器,以获得反馈。智能体根据这些反馈更新其奖励模型。

不同探索算法(被动、Boltzmann、infomax 和 double TS)在不同交互周期数下的胜率

实验结果显示,主动探索算法在加速学习和提高胜率方面明显优于被动探索。特别是,双重Thompson采样(Double TS)算法在所有测试中表现最佳,这表明通过有效的探索策略可以显著提高模型的性能。

作者进一步探讨了随着反馈数据量的增加,不同探索算法的扩展性。前面图1比较了达到特定性能水平所需的查询数量。结果表明,随着反馈数据量的增加,高效探索策略的优势也在增加。这意味着在处理大规模数据时,主动探索策略,尤其是双重Thompson采样,可以显著减少所需的数据量,从而加快达到高性能的速度。

作者还评估了不确定性估计的质量,这对于ENN算法的性能至关重要。通过比较点估计和ENN奖励模型的边际和联合负对数损失(NLL),作者验证了ENN模型确实产生了有意义的不确定性估计。这些结果不仅为ENN模型的有效性提供了依据,而且还指导了超参数的选择,以优化探索策略的性能。

点估计奖励模型和ENN奖励模型在边际负对数损失(NLL)上的比较

为了更深入地理解不同探索算法如何影响模型对特定提示的响应,作者研究了一个特定提示下模型分配给响应的奖励的演变。通过比较双重Thompson采样和Boltzmann探索算法,作者展示了不确定性估计如何帮助双重Thompson采样从错误的预测中恢复并最终达到更准确的预测。

对于特定提示,双汤普森采样和Boltzmann探索如何随着时间推移调整对响应的预测

实验结果证明了在调整大型语言模型时主动探索的显著好处,主动探索具有巨大的潜力。尽管如此,仍有许多工作要做,包括改进ENN架构、调整LLM的更多部分,以及探索多轮对话中的高效探索策略。

论文链接:https://arxiv.org/abs/2402.00396

  • 38
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值