📖标题:Perception-R1: Pioneering Perception Policy with Reinforcement Learning
🌐来源:arXiv, 2504.07954
🌟摘要
🔸受DeepSeek-R1成功的启发,我们探索了基于规则的强化学习(RL)在MLLM感知策略学习后训练中的潜力。虽然有希望,但我们的初步实验表明,通过强化学习结合思维过程并不能始终如一地提高所有视觉感知任务的性能。这促使我们深入研究强化学习在视觉感知背景下的重要作用。
🔸在这项工作中,我们回到了基本原理,探讨了强化学习对不同感知任务的影响。我们观察到,感知困惑是决定RL有效性的主要因素。我们还观察到,奖励设计在进一步接近模型感知上限方面起着至关重要的作用。为了利用这些发现,我们提出了Perception-R1,这是一个在MLLM后训练期间使用GRPO的可扩展RL框架。
🔸使用标准的Qwen2-VL-2BInstruct,Perception-R1在RefCOCO+上实现了+4.2%,在PixMo计数上实现了+17.9%,在PageOCR上实现了-4.2%,值得注意的是,在COCO2017val上首次实现了31.9%的AP,为感知策略学习建立了强有力的基线。项目在https://github.com/linkangheng/PR1
🛎️文章简介
🔸研究问题:在视觉感知任务中,如何有效应用强化学习(RL)以提升多模态大语言模型(MLLM)的感知能力?
🔸主要贡献:论文提出了一种基于规则的强化学习框架Perception-R1,首次实现了在多个视觉感知任务中超越专家模型的性能。
📝重点思路
🔸基于规则的奖励建模:通过明确的视觉区分标准替代传统语言模型中的模糊反馈机制,确保奖励机制的客观性与可量化性。
🔸多主体奖励匹配:将模型的输出与对应的真实属性进行匹配,以确保奖励计算的准确性,采用二分图匹配算法优化预测与真实值之间的关系。
🔸任务与数据设置:选择多个主流视觉感知任务(如视觉定位、计数、OCR、目标检测)进行感知策略学习,并采用不同的奖励设计。
🔸实验设计:通过对比实验分析强化学习在视觉感知任务中的有效性,探讨奖励设计对模型性能的影响。
🔎分析总结
🔸Perception-R1在视觉感知任务(如OCR、目标检测等)上实现了显著的性能提升,尤其是在OCR任务中表现出色,展示了RL在复杂视觉环境下的潜力。
🔸实验结果表明,使用强化学习的模型在高感知困惑度任务(如计数与检测)上优于传统的微调方法,说明RL在这些任务中能够更好地探索感知策略。
🔸通过二分匹配机制,Perception-R1在多主体视觉感知任务中提高了模型的奖励分配与探索能力,增强了模型的感知表现。
💡个人观点
论文首次将基于规则的强化学习应用于多模态视觉感知任务,说明用奖励做偏好对齐在视觉上的可行性。