📖标题:Vision as LoRA
🌐来源:arXiv, 2503.20680
🌟摘要
🔸我们介绍了 Vision 作为 LoRA (VoRA),这是一种将 LLM 转换为 MLLM 的新范式。与依赖外部视觉模块进行视觉编码的流行 MLLM 架构不同,VoRA 通过将特定于视觉的 LoRA 层直接集成到 LLM 中来内化视觉能力。这种设计允许在推理过程中将添加的参数无缝地合并到LLM中,消除了结构复杂性和最小化计算开销。
🔸此外,继承了LLM处理灵活上下文的能力,VoRA可以处理任意分辨率的输入。为了进一步加强VoRA的视觉能力,我们引入了一种块蒸馏方法,将视觉先验从预先训练的ViT转移到LoRA层,通过注入视觉知识有效地加速训练。此外,我们应用双向注意掩码来更好地捕获图像的上下文信息。
🔸我们成功地证明,使用额外的预训练数据,VoRA 可以与传统的基于编码的 MLLM 相媲美。所有训练数据、代码和模型权重都将在 https://github.com/Hon-Wong/VoRA 发布。
🛎️文章简介
🔸研究问题:如何将视觉理解能力有效集成到大语言模型(LLM)中,以克服传统多模态模型的缺陷?
🔸主要贡献:论文提出了一种新的方法"Vision as LoRA"(VoRA),通过低秩适应(LoRA)将视觉能力直接嵌入LLM中,避免了外部视觉模型的依赖,同时保持了语言知识的完整性。
📝重点思路
🔸通过将视觉作为低秩适应(LoRA)层集成到LLM中,实现视觉理解能力。
🔸采用块级蒸馏方法,将预训练视觉模型的中间表示与LLM的块级特征对齐,以加速训练并减少对大量视觉数据的依赖。
🔸引入双向注意力掩码,替代传统的因果掩码,以更好地捕捉视觉令牌的上下文关系。
🔎分析总结
🔸通过实验发现,使用双向注意力掩码的配置在训练损失上表现更优,且在多个基准测试中获得了显著的性能提升。
🔸VoRA在多个评估基准上表现出与现有方法相当的性能,表明其有效性和可行性。
🔸研究表明,块级蒸馏方法显著提高了训练效率,允许在相对较少的数据上达到较好的结果。
💡个人观点
论文的核心是将模态能力作为LoRA整合进LLM中,消除了传统多模态模型在计算和内存开销上的不足,提高了模型的灵活性和效率。
🧩附录