📖标题:RLEF: Grounding Code LLMs in Execution Feedback with Reinforcement Learning
🌐来源:arXiv, 2410.02089
摘要
🔸部署为代理的大型语言模型(LLM)通过多个步骤解决用户指定的任务,同时将所需的手动参与降至最低。至关重要的是,这些LLM需要将他们的世代建立在所获得的任何反馈中,以可靠地实现预期的结果。
🔸我们提出了一种端到端的强化学习方法,用于教学模型,以利用代码合成领域的执行反馈,与独立采样相比,最先进的LLM很难迭代地改进代码。
🔸我们在竞争性编程任务上进行基准测试,在这些任务中,我们使用小型(8B参数)和大型(70B)模型实现了新的起点结果,同时将所需的样本量减少了一个数量级。我们对推理时间行为的分析表明,我们的方法产生的LLM在多个步骤中有效地利用了自动反馈。
🛎️文章简介
🔸研究问题:如何通过强化学习从执行反馈中改进大语言模型(LLM)在代码生成任务中的表现?
🔸主要贡献:论文提出了一种名为RLEF的方法,显著提高了LLM在代码生成任务中的解决率和推理