NTU:LLM通过强化学习选择任务示例

在这里插入图片描述

📖标题:Large Language Models Know What Makes Exemplary Contexts
🌐来源:arXiv, 2408.07505

摘要

随着大型语言模型(LLMs)的发展,上下文学习(ICL)已被证明是一项重要的能力。通过使用少量示范性示例来指导LLMs,ICL使它们能够执行各种任务,而无需更新数百万个参数。本文提出了一个统一的LLMs框架,使它们能够自我选择有影响力的上下文示例来组成它们的上下文;自我排名具有不同演示组合的候选项;通过强化学习自我优化演示选择和排序。具体而言,我们的方法设计了一个参数高效的检索头,通过使用LLM自己的偏好奖励进行训练,生成优化的演示。实验结果验证了所提出的方法在提高ICL性能方面的有效性。此外,我们的方法有效地识别和选择当前任务最具代表性的示例,并在检索中包含更多的多样性。

🛎️文章简介

🔸研究问题:大语言模型(LLM)在上下文学习中如何有效选择示例?
🔸主要贡献:论文提出了一种基于强化学习的框架,使LLM能够主动选择和排序有影响力的示例,并通过强化学习优化示例选择。

📝重点思路

🔺相关工作

🔸最近对LLM的研究强调了ICL能力,模型仅通过任务示例即可适应新任务。
🔸许多工作都专注于增强密集检索器,以根据通过对比损失计算的LLM反馈来选择更具代表性的示例。
🔸训练期间学习单个示例的反馈,会导致推理时候多示例的不一致,且多个示例会相互影响。

🔺论文方案

🔸采用了一种基于强化学习(RL)的方法,通过构建一个参数高效的检索头来生成最代表性的示例索引。
🔸该方法使用一个固定的LLM进行检索和推理,通过PPO算法优化检索头,使其生成最优的示例组合策略。
🔸在每一步中,从候选集中采样示例,并通过LLM生成概率分数,根据LLM的偏好对候选集进行排序,然后使用Bradley-Terry模型训练奖励模型。
🔸引入了代表性和多样性两个指标,用来评估检索到的示例的质量。

🔎分析总结

🔸实验评估了奖励模型的必要性,发现去除奖励模型的导致性能变差。
🔸优化的检索头能够从较小的子集中选择有影响力的示例,同时增加多样性,从而提高ICL性能。
🔸通过强化学习训练的检索头生成的策略,在不同LLM之间具备可迁移性,能够提高性能。

💡个人观点

论文基于强化学习,使LLM能够主动选择和排序有影响力的示例,并通过优化示例选择提高ICL性能。

附录

在这里插入图片描述

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值