从表征视角看VLLM(4)——Inter-VL系列模型

Intern-VL

Intern-VL的发布时间晚于BLIP2和LLAVA,因此在表征问题上做了新的创新。

论文动机和做法:

论文指出,现有的视觉对齐文本的方式:Q-former,linear projection(比如MLP) ,在表征上有以下的问题:

        (1) 参数尺度的差异。大型 LLM 可以达到几百B个参数,而广泛使用的视觉编码器的参数量(如Vit-Huge)仍然在1B左右,甚至更小。这种差距可能导致 LLM 的能力利用不足。

        (2) 表征的不一致性。视觉模型一般是在纯视觉数据上训练或者对齐的,经常表现出与 LLM 的表示不一致。

        (3)连接效率低下。仅通过简单的随机初始化的轻量级的层,无法真正的捕获模型交互,无法获取到丰富的信息,影响内容理解和生成的质量。

而Intern-VL将放大的视觉编码器的表示与 LLM 结合起来,并在各种视觉和视觉语言任务中实现最先进的性能。

图:InternVL 模型的训练策略。它包括视觉-语言的对比训练、预训练和SFT三个阶段。这些阶段有效地利用了来自不同来源的公共数据,从网络上嘈杂的图像 - 文本对到高质量的标题、 VQA 和多模态对话数据集。

如上图stage3所示,InternVL有三个关键的设计:

(1) 参数平衡的视觉和语言组件:它包括一个6B的视觉编码器和一个具有8B参数的 “LLM 中间件”,其中中间件作为一个 “胶水” 层,重新组织基于用户命令的视觉特性。大尺度的视觉编码器和中间件为对比和生成任务提供了灵活的组合。

(2) 一致的表征: 为了保持视觉编码器和 LLM 之间表征的一致性,我们使用  LLaMA 来初始化中间件并将视觉编码器与其对齐。

(3) 渐进式图文对齐: 我们利用不同来源的图文数据,通过渐进式对齐策略确保训练的稳定性。该策略首先对大规模有噪声的图文数据进行对比学习,然后对细粒度数据进行生成学习。这种方法确保了模型性能和任务范围的一致增强。

QLLAMA(LLM中间件)的详解:

提出了一种语言中间件 QLLaMA 来调整视觉特征和语言特征。

QLLaMA 是基于预训练的多语言LLM: LLaMA(7B参数)开发的,并且随机初始化了 96 个可学习的查询和交叉注意层 (1B参数)。
这种方法使得 QLLaMA 平稳地将可视化元素集成到语言模型中,从而增强了组合特征的一致性和有效性。

与使用轻量级的 “胶水” 层,如 Q-Former 和 线性层 来连接视觉编码器和 LLM,我们的方法有三个优点:

(1) Q-Former和MLP的随机初始化的,而QLLAMA是基于预训练的LLM,因此 QLLaMA  可以将由 InternViT-6B 生成的图像tokens 平滑地转换为与 LLM 对齐的表示。

(2) QLLaMA 具有 80 亿视觉语言对齐参数,其比 QFormer 大 42 倍。因此,即使采用冻结的 LLM 解码器,InternVL 也能在多模态对话任务中取得良好的性能。

(三) QLLaMA也可以被应用于对比学习,为图文对齐任务提供强大的文本表示,如zero-shot 分类 和图像检

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

仙人球小熊

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值