📖标题:Large Language Models Know What Makes Exemplary Contexts
🌐来源:arXiv, 2408.07505
摘要
随着大型语言模型(LLMs)的发展,上下文学习(ICL)已被证明是一项重要的能力。通过使用少量示范性示例来指导LLMs,ICL使它们能够执行各种任务,而无需更新数百万个参数。本文提出了一个统一的LLMs框架,使它们能够自我选择有影响力的上下文示例来组成它们的上下文;自我排名具有不同演示组合的候选项;通过强化学习自我优化演示选择和排序。具体而言,我们的方法设计了一个参数高效的检索头,通过使用LLM自己的偏好奖励进行训练,生成优化的演示。实验结果验证了所提出的方法在提高ICL性能方面的有效性。此外,我们的方法有效地识别和选择当前任务最具代表性的示例,并在检索中包含更多的多样性。
🛎️文章简介
🔸研究问题:大语言模型(LLM)在上下文学习中如何有效选择示例?
🔸主要贡献:论文提出了一种基于强化学习的框架,使LLM能够主动选择和排序有影响力的示例,并通过强化学习优化示例选择。
📝重点思路
🔺相关工作
🔸最近对LLM的研究强调了ICL能力,模型仅通过任务示例即可适应新任务。
🔸许多工作都专注于增强密集检索器,以根据通过对比损失计算的LLM反馈来选择更具代表性的示例。
🔸训练期间学习单个示例的反馈,会导致推理时候多示例的不一致,且多个示例会相互影响。
🔺论文方案
🔸采用了一种基于强化学习(RL)的方法,通过构建一个参数高效的检索头来生成最代表性的示例索引。
🔸该方法使用一个固定的LLM进行检索和推理,通过PPO算法优化检索头,使其生成最优的示例组合策略。
🔸在每一步中,从候选集中采样示例,并通过LLM生成概率分数,根据LLM的偏好对候选集进行排序,然后使用Bradley-Terry模型训练奖励模型。
🔸引入了代表性和多样性两个指标,用来评估检索到的示例的质量。
🔎分析总结
🔸实验评估了奖励模型的必要性,发现去除奖励模型的导致性能变差。
🔸优化的检索头能够从较小的子集中选择有影响力的示例,同时增加多样性,从而提高ICL性能。
🔸通过强化学习训练的检索头生成的策略,在不同LLM之间具备可迁移性,能够提高性能。
💡个人观点
论文基于强化学习,使LLM能够主动选择和排序有影响力的示例,并通过优化示例选择提高ICL性能。