📖标题:Dynamic Scaling of Unit Tests for Code Reward Modeling
🌐来源:arXiv, 2501.01054
🌟摘要
🔸当前的大型语言模型(LLM)在首次尝试代码生成时往往难以产生准确的解决方案。之前的研究通过生成多个候选解决方案并使用LLM生成的单元测试对其进行验证来应对这一挑战。单元测试的执行结果作为奖励信号,以确定正确的解决方案。由于LLM总是自信地犯错,这些单元测试不可靠,从而降低了奖励信号的质量。
🔸受扩展解决方案数量可以提高LLM性能这一观察结果的启发,我们探索了扩展单元测试对提高奖励信号质量的影响。我们的开创性实验揭示了单元测试的数量与奖励信号质量之间的正相关关系,在更具挑战性的问题中观察到更大的好处。基于这些见解,我们提出了CodeRM8B,这是一种轻量级但有效的单元测试生成器,可以实现高效和高质量的单元测试扩展。此外,我们实现了一种动态缩放机制,根据问题难度调整单元测试的数量,进一步提高了效率。
🔸实验结果表明,我们的方法在三个基准上显著提高了各种模型的性能(例如,在HumanEval Plus上,Llama3-8B的增益为18.43%,GPT-4o-mini的增益为3.42%)。