📖标题:TTRL: Test-Time Reinforcement Learning
🌐来源:arXiv, 2504.16084
🌟摘要
🔸本文研究了大型语言模型(LLMs)中推理任务在没有显式标签的数据上的强化学习(RL)。该问题的核心挑战是在无法获取地面真实信息的情况下进行推理过程中的奖励估计。虽然这种设置似乎难以捉摸,但我们发现测试时间缩放(TTS)中的常见做法,如多数投票,会产生令人惊讶的有效奖励,适合推动强化学习训练。
🔸在这项工作中,我们介绍了测试时间强化学习(TTRL),这是一种在未标记数据上使用RL训练LLM的新方法。TTRL通过利用预训练模型中的先验来实现LLM的自我进化。
🔸我们的实验表明,TTRL在各种任务和模型中都能持续提高性能。值得注意的是,TTRL提高了pass@1仅使用未标记的测试数据,Qwen-2.5-Math-7B在AIME 2024上的性能提高了约159%。此外,尽管TTRL仅由Maj@NTTRL已经证明其性能始终超过初始模型的上限,并接近直接在具有地面真值标签的测试数据上训练的模型的性能。我们的实验结果验证了TTRL在各种任务中的总体有效性,并强调了TTRL对更广泛任务和领域的潜力。项目在https://github.com/PRIME-RL/TTRL
🛎️文章简介
🔸研究问题:在测试阶段如何利用无标签数据进行强化学习(RL)以提升模型性能?
🔸主要贡献:论文提出了一种新的框架——测试时强化学习(TTRL),通过无监督的方式实现模型在测试数据上的自我演化和性能提升。
📝重点思路
🔸TTRL通过对未标记的测试数据进行训练,采用多次采样策略来估计标签,并计算基于规则的奖励。
🔸论文中引入了多数投票的规则奖励函数,该函数通过对模型输出的共识进行计算,生成奖励信号。
🔸TTRL与不同的强化学习算法兼容,论文中展示了其在多种基准测试上应用的有效性。
🔸实验中使用了不同规模的模型(如Qwen2.5-Math-1.5B和Qwen2.5-Math-7B),验证了TTRL的扩展性和自我改进能力。
🔎分析总结
🔸TTRL在多个基准测试(如AIME 2024、AMC和MATH-500)上表现出显著的性能提升,平均提高幅度达到84%。
🔸论文指出,尽管TTRL依赖于无标签数据进行自我进化,但其性能与传统的有标签数据训练方法相当,甚至在某些情况下超越了这些方法。
🔸结果表明,TTRL能够有效减轻对人工标注的依赖,从而促进大规模无监督训练的持续学习能力。
💡个人观点
论文的核心是利用测试时的多次采样,结合多数投票的规则生成奖,实现了无监督学习和在线学习。但如果模型本身收敛导致答案固化那就不行了,而且这个奖励感觉准确性不高。
🧩附录