📖标题:Fast-Slow Thinking for Large Vision-Language Model Reasoning
🌐来源:arXiv, 2504.18458
🌟摘要
🔸大型视觉语言模型(LVLM)的最新进展揭示了一种过度思考的现象,即模型在所有任务中生成冗长的推理,而不管问题如何。
🔸为了解决这个问题,我们提出了FAST,这是一个新颖的快慢思维框架,可以根据问题特征动态调整推理深度。通过实证分析,我们通过研究响应长度和数据分布如何影响LVLM的性能,建立了LVLM中快慢思维的可行性。我们开发了FAST-GRPO,它有三个组成部分:基于模型的问题表征度量、自适应思维奖励机制和感知难度的KL正则化。
🔸七个推理基准的实验表明,FAST实现了最先进的准确性,与基本模型相比相对提高了10%以上,同时与之前的慢思维方法相比,令牌使用量减少了32.7-67.3%,有效地平衡了推理长度和准确性。项目在https://github.com/Mr-Loevan/FAST
🛎️文章简介
🔸研究问题:大型视觉语言模型(LVLM)在推理过程中出现过度思考现象。
🔸主要贡献:论文提出了FAST框架,通过动态调整推理深度来平衡推理准确性与推理长度,显著提高了LVLM的性能。
📝重点思路
🔸实施长度奖励分析,以研究推理长度与准确性之间的关系,揭示模型在不同难度问题上的表现差异,探讨了快速-慢速思维在LVLM中的可行性。
🔸引入动态KL散度系数,根据问题的难度调整探索约束,以鼓励复杂问题的更广泛探索。
🔸提出困难和复杂性两个模型基础的指标,用于数据选择策略,以优化训练过程。
🔸开发FAST-GRPO算法,结合思维奖励塑造和难度感知的KL正则化,平衡推理的长度与准确性。
🔎分析总结
🔸实验结果显示,FAST框架使得LVLM在七个推理基准上表现出色,准确性平均提高超过10%。
🔸通过对比,FAST在推理长度上比传统慢思维模型减少了32.7%到67.3%的token使用,同时保持高准确性。
🔸研究发现,推理的准确性与响应长度之间并不总是存在正相关关系,表明在LVLM中快速-慢速思维的潜力。
💡个人观点
论文的核心在于根据不同问题难度约束模型探索能力,通过快慢思维的动态调整机制,针对视觉输入的特点综合考量推理长度和准确性。