字节：将视觉模态以LoRA集成到LLM

大模型任我行

于 2025-04-03 10:00:00 发布

阅读量761

点赞数 17

分类专栏：大模型-结构原理大模型-模型训练文章标签：人工智能自然语言处理语言模型论文笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46739757/article/details/146917423

版权

大模型-模型训练同时被 2 个专栏收录

292 篇文章

订阅专栏

大模型-结构原理

53 篇文章

订阅专栏

在这里插入图片描述

📖标题：Vision as LoRA
🌐来源：arXiv, 2503.20680

🌟摘要

🔸我们介绍了 Vision 作为 LoRA (VoRA)，这是一种将 LLM 转换为 MLLM 的新范式。与依赖外部视觉模块进行视觉编码的流行 MLLM 架构不同，VoRA 通过将特定于视觉的 LoRA 层直接集成到 LLM 中来内化视觉能力。这种设计允许在推理过程中将添加的参数无缝地合并到LLM中，消除了结构复杂性和最小化计算开销。
🔸此外，继承了LLM处理灵活上下文的能力，VoRA可以处理任意分辨率的输入。为了进一步加强VoRA的视觉能力，我们引入了一种块蒸馏方法，将视觉先验从预先训练的ViT转移到LoRA层，通过注入视觉知识有效地加速训练。此外，我们应用双向注意掩码来更好地捕获图像的上下文信息。
🔸我们成功地证明，使用额外的预训练数据，VoRA 可以与传统的基于编码的 MLLM 相媲美。所有训练数据、代码和模型权重都将在 https://github.com/Hon-Wong/VoRA 发布。

🛎️文章简介

🔸研究问题：如何将视觉理解能力有效集成到大语言模型（LLM）中，以克服传统多模态模型的缺陷？
🔸主要贡献：论文提出了一种新的方法"Vision as LoRA"（VoRA），通过低秩适应（LoRA）将视觉能力直接嵌入LLM中，避免了外部视觉模型的依赖，同时保持了语言知识的完整性。

📝重点思路

🔸通过将视觉作为低秩适应（LoRA）层集成到LLM中，实现视觉理解能力。
🔸采用块级蒸馏方法，将预训练视觉模型的中间表示与LLM的块级特征对齐，以加速训练并减少对大量视觉数据的依赖。
🔸引入双向注意力掩码，替代传统的因果掩码，以更好地捕捉视觉令牌的上下文关系。

🔎分析总结

🔸通过实验发现，使用双向注意力掩码的配置在训练损失上表现更优，且在多个基准测试中获得了显著的性能提升。
🔸VoRA在多个评估基准上表现出与现有方法相当的性能，表明其有效性和可行性。
🔸研究表明，块级蒸馏方法显著提高了训练效率，允许在相对较少的数据上达到较好的结果。

💡个人观点

论文的核心是将模态能力作为LoRA整合进LLM中，消除了传统多模态模型在计算和内存开销上的不足，提高了模型的灵活性和效率。

🧩附录

在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大模型任我行 随意啦，喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。