从表征视角看VLLM（4）——Inter-VL系列模型

仙人球小熊

于 2025-02-18 16:38:03 发布

阅读量862

点赞数 18

分类专栏：从表征视角看VLLM 文章标签：人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_63482830/article/details/145428190

版权

Intern-VL

Intern-VL的发布时间晚于BLIP2和LLAVA,因此在表征问题上做了新的创新。

论文动机和做法：

论文指出，现有的视觉对齐文本的方式：Q-former，linear projection（比如MLP），在表征上有以下的问题：

(1) 参数尺度的差异。大型 LLM 可以达到几百B个参数，而广泛使用的视觉编码器的参数量（如Vit-Huge）仍然在1B左右，甚至更小。这种差距可能导致 LLM 的能力利用不足。

(2) 表征的不一致性。视觉模型一般是在纯视觉数据上训练或者对齐的，经常表现出与 LLM 的表示不一致。

(3)连接效率低下。仅通过简单的随机初始化的轻量级的层，无法真正的捕获模型交互，无法获取到丰富的信息，影响内容理解和生成的质量。

而Intern-VL将放大的视觉编码器的表示与 LLM 结合起来，并在各种视觉和视觉语言任务中实现最先进的性能。

图：InternVL 模型的训练策略。它包括视觉-语言的对比训练、预训练和SFT三个阶段。这些阶段有效地利用了来自不同来源的公共数据，从网络上嘈杂的图像 - 文本对到高质量的标题、 VQA 和多模态对话数据集。

如上图stage3所示，InternVL有三个关键的设计：

(1) 参数平衡的视觉和语言组件：它包括一个6B的视觉编码器和一个具有8B参数的 “LLM 中间件”，其中中间件作为一个 “胶水” 层，重新组织基于用户命令的视觉特性。大尺度的视觉编码器和中间件为对比和生成任务提供了灵活的组合。

(2) 一致的表征：为了保持视觉编码器和 LLM 之间表征的一致性，我们使用 LLaMA 来初始化中间件并将视觉编码器与其对齐。

(3) 渐进式图文对齐：我们利用不同来源的图文数据，通过渐进式对齐策略确保训练的稳定性。该策略首先对大规模有噪声的图文数据进行对比学习，然后对细粒度数据进行生成学习。这种方法确保了模型性能和任务范围的一致增强。

QLLAMA（LLM中间件）的详解：

提出了一种语言中间件 QLLaMA 来调整视觉特征和语言特征。

QLLaMA 是基于预训练的多语言LLM: LLaMA（7B参数）开发的，并且随机初始化了 96 个可学习的查询和交叉注意层 (1B参数)。
这种方法使得 QLLaMA 平稳地将可视化元素集成到语言模型中，从而增强了组合特征的一致性和有效性。

与使用轻量级的 “胶水” 层，如 Q-Former 和 线性层 来连接视觉编码器和 LLM，我们的方法有三个优点：

(1) Q-Former和MLP的随机初始化的，而QLLAMA是基于预训练的LLM，因此 QLLaMA 可以将由 InternViT-6B 生成的图像tokens 平滑地转换为与 LLM 对齐的表示。

(2) QLLaMA 具有 80 亿视觉语言对齐参数，其比 QFormer 大 42 倍。因此，即使采用冻结的 LLM 解码器，InternVL 也能在多模态对话任务中取得良好的性能。

(三) QLLaMA也可以被应用于对比学习，为图文对齐任务提供强大的文本表示，如zero-shot 分类和图像检

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

仙人球小熊 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。