NTU：LLM通过强化学习选择任务示例

大模型任我行

于 2024-09-02 10:00:00 发布

阅读量160

点赞数 3

分类专栏：大模型-模型训练文章标签：人工智能自然语言处理语言模型论文笔记

本文链接：https://blog.csdn.net/weixin_46739757/article/details/141790479

版权

大模型-模型训练专栏收录该内容

19 篇文章 0 订阅

订阅专栏

在这里插入图片描述

📖标题：Large Language Models Know What Makes Exemplary Contexts
🌐来源：arXiv, 2408.07505

摘要

随着大型语言模型（LLMs）的发展，上下文学习（ICL）已被证明是一项重要的能力。通过使用少量示范性示例来指导LLMs，ICL使它们能够执行各种任务，而无需更新数百万个参数。本文提出了一个统一的LLMs框架，使它们能够自我选择有影响力的上下文示例来组成它们的上下文；自我排名具有不同演示组合的候选项；通过强化学习自我优化演示选择和排序。具体而言，我们的方法设计了一个参数高效的检索头，通过使用LLM自己的偏好奖励进行训练，生成优化的演示。实验结果验证了所提出的方法在提高ICL性能方面的有效性。此外，我们的方法有效地识别和选择当前任务最具代表性的示例，并在检索中包含更多的多样性。

🛎️文章简介

🔸研究问题：大语言模型（LLM）在上下文学习中如何有效选择示例？
🔸主要贡献：论文提出了一种基于强化学习的框架，使LLM能够主动选择和排序有影响力的示例，并通过强化学习优化示例选择。

📝重点思路

🔺相关工作

🔸最近对LLM的研究强调了ICL能力，模型仅通过任务示例即可适应新任务。
🔸许多工作都专注于增强密集检索器，以根据通过对比损失计算的LLM反馈来选择更具代表性的示例。
🔸训练期间学习单个示例的反馈，会导致推理时候多示例的不一致，且多个示例会相互影响。

🔺论文方案

🔸采用了一种基于强化学习（RL）的方法，通过构建一个参数高效的检索头来生成最代表性的示例索引。
🔸该方法使用一个固定的LLM进行检索和推理，通过PPO算法优化检索头，使其生成最优的示例组合策略。
🔸在每一步中，从候选集中采样示例，并通过LLM生成概率分数，根据LLM的偏好对候选集进行排序，然后使用Bradley-Terry模型训练奖励模型。
🔸引入了代表性和多样性两个指标，用来评估检索到的示例的质量。