📖标题:Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme
🌐来源:arXiv, 2504.02587
🌟摘要
🔸强化学习(RL)最近在提高大型语言模型的推理能力方面显示出巨大的潜力,现在正积极扩展到视觉语言模型(VLM)。然而,VLM中现有的RL应用程序通常依赖于高度工程化的框架,这阻碍了可重复性和可访问性,同时缺乏标准化的评估协议,使得比较结果或解释训练动态变得困难。
🔸这项工作为VLM中的RL引入了一个透明的从头开始的框架,提供了一个在多个模型和数据集上验证的最小但功能齐全的四步流水线。此外,还提出了一个标准化的评估方案来评估训练动态和反思行为。对视觉推理任务的广泛实验揭示了关键的实证发现:响应长度对随机种子敏感,反射与输出长度相关,RL在泛化方面始终优于监督微调(SFT),即使是在高质量数据的情况下。
🔸这些发现以及提出的框架旨在建立一个可重复的基线,并支持更广泛地参与基于强化学习的VLM研究。代码是公开的,可在以下网址获得:https://github.com/GAIR-NLP/MAYE.
🛎️文章简介
🔸研究问题:在视觉语言模型(VLM)中缺乏可复现的强化学习(RL)训练框架和标准化评估方法。
🔸主要贡献:论文提出了一个透明的、从头实现的RL训练框架和一个综合评估方案,旨在提高VLM的训练效果和评估的一致性。
📝重点思路
🔸论文首先建立了RL在VLM中的基础设置,包括数据、算法、奖励函数和模型,确保训练过程的连贯性和可复现性。
🔸提出了一个从头开始的可复现RL框架,该框架使用标准库而非复杂的现成RL工具包,确保训练过程的透明性和可定制性。
🔸采用了多种规则基础的奖励机制,以指导RL训练,并避免奖励信号中的虚假相关性。
🔸提出了一个全面的评估方案,旨在捕捉RL训练的动态过程,包含多个关键性能指标,如准确率曲线和反思比率等。
🔸在实验中对不同的VLM和数据集进行了RL实验,评估其在视觉推理任务中的表现。
🔎分析总结
🔸研究发现反应长度对随机种子极为敏感,反思行为与长度动态有强相关性。
🔸RL训练的模型在泛化能力上显著优于传统的监督微调(SFT),即使在高质量监督下,RL仍表现出更强的泛化能力。
🔸在多个任务上,RL模型在验证和测试集上均显示出显著的性能提升,验证了所提出框架的有效性。
🔸反思行为的频率与模型的准确性变化存在复杂关系,表明反思不仅与输出长度相关,还影响推理过程。
💡个人观点
论文提供了一个系统化且可复现的RL训练框架,强调了训练动态和反思行为的重要性。