Qwen-VL A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

TL; DR:多任务的训练方式以及配套的输入输出格式定义,使得多模态视觉大模型具有了更多视觉理解能力。如 grouding、ocr 等。

导言

先从直观上感受一下 qwen-vl 处理多任务的能力。如下图 1,5 所示,qwen-vl 可以理解和输出特定格式的图像坐标位置描述;如图 2,4,6 所示,qwen-vl 能理解图像中的文字,进而可以依据图像中的文字内容完成 OCR 或视觉问答任务,而图 3 这种常规的视觉问答任务更是不再话下。

太强了!先不论常规视觉理解和视觉问答的精度如何,引入了图像物体定位和 OCR 这两类能力就足以令人惊艳了。让我们看看 qwen-vl 是如何做到的。

在这里插入图片描述

方法

qwen-vl 的改进主要在四个方面:1. 模型结构 2. 适配各种视觉任务的输入输出格式 3. 三阶段的训练方式 4. 高质量的多语言多模态数据。我们一个一个来看。

模型结构

现在的多模态大模型(VLM)在模型结构方面一般都有是三个部分组成,分别是视觉编码器,大语言模型和适配器。qwen-vl 也不例外:

  1. 视觉编码器,qwen-vl 使用的视觉编码器是 open-clip 训练的 ViT-bigG/14 的 CLIP 模型视觉塔;
  2. 大语言模型,大语言模型,自不必说,当然是 qwen,具体规模是 7B;
  3. 适配器,qwen-vl 选择的适配器是一个单层交叉注意力模块。该模块使用一组可训练的 embeddings 作为 query,将视觉编码器中提取的图像特征作为 key,来进行交叉注意力操作。由于 qwen-vl 还要做一些 grouding 的任务,因此需要保持图像的位置信息。因此,适配器这里的 query 和 key 都加了 2D 的绝对位置编码。

在这里插入图片描述

视觉编码器和交叉注意力模块首先将图像编码为固定长度(256 tokens)的特征,然后与文本输入的 token 一起送入到大语言模型中。

输入和输出

图片输入

为了区分文本输入和图像输入,在图片的首尾分别加上了两个特殊的 token <img></img> 用以表示图像输入的开始和结束。

位置框的输入和输出

为了进行 grouding 类的任务,引入了两组特殊 token:<box></box><ref>/ref ,分别用以表示位置框和相关描述信息。位置坐标会被统一 normalize 到 [0, 1000),并表示为 (x1, y1), (x2, y2) 的形式。

训练和数据

qwen-vl 的训练共分为三个阶段:预训练、多任务预训练和有监督微调(SFT)。

在这里插入图片描述

下面通过表格的形式整理一下不同阶段的设置:

是否训练视觉编码器是否训练适配器是否训练大语言模型(实际构造的)训练任务数据量数据类型
预训练×captioning1.4B图文对
多任务预训练captioning、VQA、(ref) grouding (cap)、OCR、pure text gen76.8M图文交错
SFT×instruction multimodal SFT350K图文交错

注意:

  • 数据方面,qwen-vl 做了很多数据清洗,在预训练阶段洗掉了 70%+ 的数据,具体清洗流程在文章附录中。

  • 训练任务的形式都是自回归文本生成的形式,通过构造不同的训练数据来进行不同的任务训练。

  • 预训练阶段的输入图像分辨率是 224,后面两个阶段扩增至 448

  • 在第三阶段,现有的多模态指令微调一般是单图的,qwen-vl 收集了多图的图文交错的指令微调数据

  • 经过前两个阶段之后的模型称为 qwen-vl,经过第三阶段 SFT 之后的模型称为 qwen-vl-chat。

总结

qwen-vl 相比于之前的 VLM 最大的亮点是加入了 grouding、OCR 这类更细粒度的、更有视觉特色的任务,而不只是简单的图片理解 VQA。并且 qwen-vl 很好地支持了图文交错的形式。笔者体验下来,目前来说,qwen-vl 是中文开源多模态大模型中最好的了。

<think>好的,我现在需要帮助用户比较Qwen2-VLQwen-VL的区别。首先,我需要确认用户提供的引用内容。引用1提到了Qwen2-VL的特点,比如支持不同分辨率和长宽比的图片、长视频理解、作为智能体以及多语言支持,还提到架构上的改进,比如动态分辨率和多模态旋转位置嵌入。引用2是关于Qwen2-VL的部署步骤,可能对差异分析帮助不大,但需要注意是否有版本相关的信息。 用户的问题是要了解这两个模型的主要差异。首先,我需要回忆或查找Qwen-VL的信息,可能用户之前了解过Qwen-VL,现在想看看升级版Qwen2-VL有什么改进。根据引用1,Qwen2-VL在视觉能力评估中表现更好,特别是在细节识别、推理、视频理解和实时聊天方面。这可能意味着Qwen-VL在这些方面相对较弱。 接下来,架构方面,Qwen2-VL延续了ViT加Qwen2的串联结构,但升级了动态分辨率和位置嵌入。动态分辨率处理可能让模型更灵活处理不同尺寸的图片,而多模态旋转位置嵌入可能提升处理长文本或多模态数据的能力。这些都是Qwen2-VL的改进点。 另外,引用1提到Qwen2-VL开源了2B和7B版本,而Qwen-VL可能有不同的参数规模?或者之前的版本是Qwen-VL,现在升级到Qwen2-VL,参数更大,比如72B的API版本。这可能说明模型规模上的扩展。 性能方面,Qwen2-VL在多个评估中表现优异,可能在基准测试中比Qwen-VL有更高的分数。应用场景方面,Qwen2-VL适合需要更高精度和复杂推理的任务,比如手机、机器人视觉智能体,而Qwen-VL可能适用于基础任务。 还需要注意多语言支持是否是Qwen2-VL新增的,或者是否有增强。比如,原来的Qwen-VL可能支持中文,而Qwen2-VL扩展到更多语言。 总结下来,主要差异可能包括:模型架构优化、处理能力(动态分辨率、视频理解)、性能提升、应用场景扩展、多语言支持以及模型规模的增加。需要将这些点分条列出,确保引用正确,比如引用1提到的内容作为支持。 最后,生成相关问题时要围绕这些差异,比如性能对比、架构差异、适用场景等。</think>### Qwen2-VLQwen-VL 的主要差异对比 #### 1. **架构升级** - **Qwen2-VL**:延续了 ViT(Vision Transformer)加 Qwen2 的串联结构,**新增对原生动态分辨率的支持**,能处理不同尺寸和长宽比的图片;引入**多模态旋转位置编码(MRPE)**,增强了多模态对齐能力[^1]。 - **Qwen-VL**:基于早期版本的架构,可能受限于固定分辨率输入,对复杂多模态任务的支持较弱。 #### 2. **视觉理解能力** - **Qwen2-VL**:在细节识别(如小物体检测)、视觉推理(如复杂场景关系理解)、长视频理解(支持超过1分钟的视频)等方面表现显著提升,支持**实时多轮交互**(如聊天场景)。 - **Qwen-VL**:早期版本可能在长视频处理和细粒度推理任务中存在性能瓶颈。 #### 3. **应用场景扩展** - **Qwen2-VL**:定位为**视觉智能体**,可部署于手机、机器人等终端,支持更复杂的多模态交互(如文档解析、图文问答)。 - **Qwen-VL**:早期版本更多聚焦于基础图文任务(如图像描述、简单问答)。 #### 4. **多语言支持** - **Qwen2-VL**:强化了**多语言图文理解能力**,支持中、英、日、韩等语言的混合输入与生成。 - **Qwen-VL**:可能以中文为核心,其他语言支持有限。 #### 5. **模型规模与性能** - **Qwen2-VL**:开源了 **2B** 和 **7B** 参数版本,并提供 **72B API** 服务,在综合评估中视觉能力达到业界领先水平。 - **Qwen-VL**:早期版本参数规模较小(如 1.8B、7B),性能相对受限。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值