浙大:优化视觉模型的过度思考

在这里插入图片描述

📖标题:Fast-Slow Thinking for Large Vision-Language Model Reasoning
🌐来源:arXiv, 2504.18458

🌟摘要

🔸大型视觉语言模型(LVLM)的最新进展揭示了一种过度思考的现象,即模型在所有任务中生成冗长的推理,而不管问题如何。
🔸为了解决这个问题,我们提出了FAST,这是一个新颖的快慢思维框架,可以根据问题特征动态调整推理深度。通过实证分析,我们通过研究响应长度和数据分布如何影响LVLM的性能,建立了LVLM中快慢思维的可行性。我们开发了FAST-GRPO,它有三个组成部分:基于模型的问题表征度量、自适应思维奖励机制和感知难度的KL正则化。
🔸七个推理基准的实验表明,FAST实现了最先进的准确性,与基本模型相比相对提高了10%以上,同时与之前的慢思维方法相比,令牌使用量减少了32.7-67.3%,有效地平衡了推理长度和准确性。项目在https://github.com/Mr-Loevan/FAST

🛎️文章简介

🔸研究问题:大型视觉语言模型(LVLM)在推理过程中出现过度思考现象。
🔸主要贡献:论文提出了FAST框架,通过动态调整推理深度来平衡推理准确性与推理长度,显著提高了LVLM的性能。

📝重点思路

🔸实施长度奖励分析,以研究推理长度与准确性之间的关系,揭示模型在不同难度问题上的表现差异,探讨了快速-慢速思维在LVLM中的可行性。
🔸引入动态KL散度系数,根据问题的难度调整探索约束,以鼓励复杂问题的更广泛探索。
🔸提出困难和复杂性两个模型基础的指标,用于数据选择策略,以优化训练过程。
🔸开发FAST-GRPO算法,结合思维奖励塑造和难度感知的KL正则化,平衡推理的长度与准确性。

🔎分析总结

🔸实验结果显示,FAST框架使得LVLM在七个推理基准上表现出色,准确性平均提高超过10%。
🔸通过对比,FAST在推理长度上比传统慢思维模型减少了32.7%到67.3%的token使用,同时保持高准确性。
🔸研究发现,推理的准确性与响应长度之间并不总是存在正相关关系,表明在LVLM中快速-慢速思维的潜力。

💡个人观点

论文的核心在于根据不同问题难度约束模型探索能力,通过快慢思维的动态调整机制,针对视觉输入的特点综合考量推理长度和准确性。

🧩附录

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值