第一部分:基本信息
一篇投稿至 ICLR 2026 的会议论文(处于双盲评审阶段),核心聚焦多模态大语言模型(MLLM)微调中的模态收敛协调问题,提出了名为 MARS 的自适应秩搜索方法。

第二部分:解决的问题
利用低秩适配(LoRA)等参数高效方法对多模态大语言模型(MLLMs)进行微调,是任务适配的关键环节。然而,多模态大模型(MLLM)用 LoRA 做微调时,各个模块(视觉编码器 ME 和 LLM)收敛速度不一致,导致整体性能不佳,而且调参非常费时。
如果 ME 适应太慢,会成为瓶颈;如果 LLM 适应太慢,会导致训练振荡和不稳定。
- (a)模态编码器(ME)适配不足:ME 和投影层(Proj)的收敛速度慢(梯度小、扰动弱),而 LLM 主干网络收敛快。
- (b)性能瓶颈:对应(a)的情况,ME 适配不足会导致性能陷入瓶颈(图中 “ME Slow

订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



