新年惊喜！Qwen2.5-VL颠覆式创新文档解析

最新推荐文章于 2025-03-29 19:01:48 发布

Python编程杰哥

最新推荐文章于 2025-03-29 19:01:48 发布

阅读量1.1k

点赞数 8

文章标签：笔记人工智能微服务架构云原生

本文链接：https://blog.csdn.net/xx_nm98/article/details/145460783

版权

一、Qwen2.5-VL颠覆6大任务

1.1 文档解析任务：最惊喜的能力

设计了一种QwenVL HTML 格式，它既可以将文档中的文本精准地识别出来，也能够提取文档元素（如图片、表格等）的位置信息，从而准确地将文档中的版面布局进行精准还原。
基于精心构建的海量数据，QwenVL HTML 可以对广泛的场景进行鲁棒的文档解析，比如杂志、论文、网页、甚至手机截屏等等。

1.2 万物识别

Qwen2.5-VL 显著增强了其通用图像识别能力，大幅扩大了可识别的图像类别量级。不仅包括植物、动物、著名山川的地标，还包括影视作品中的 IP，以及各种各样的商品。

1.3 精准定位

Qwen2.5-VL 采用矩形框和点的多样化方式对通用物体定位，可以实现层级化定位和规范的 JSON 格式输出。增强的定位能力为复杂场景中的视觉 Agent 进行理解和推理任务提供了基础。

1.4 全面的文字识别和理解

Qwen2.5-VL 将 OCR 识别能力提升至一个新的水平，增强了多场景、多语言和多方向的文本识别和文本定位能力。同时，在信息抽取能力上进行大幅度增强，以满足日益增长的资质审核、金融商务等数字化、智能化需求。

1.5 增强的视频理解

Qwen2.5-VL 的视频理解能力经过全面升级，在时间处理上，我们引入了动态帧率（FPS）训练和绝对时间编码技术。
这样一来，模型不仅能够支持小时级别的超长视频理解，还具备秒级的事件定位能力。
它不仅能够准确地理解小时级别的长视频内容，还可以在视频中搜索具体事件，并对视频的不同时间段进行要点总结，从而快速、高效地帮助用户提取视频中蕴藏的关键信息。

1.6 能够操作电脑和手机的视觉 Agent

通过利用内在的感知、解析和推理能力，Qwen2.5-VL 展现出了不错的设备操作能力。这包括在手机、网络平台和电脑上执行任务，为创建真正的视觉代理提供了有价值的参考点。

二、Qwen2.5-VL 特点

Qwen2.5-VL开源了的 Base 和 Instruct 模型，包含 3B、7B 和 72B 在内的 3 个模型尺寸。

感知更丰富的世界：Qwen2.5-VL 不仅擅长识别常见物体，如花、鸟、鱼和昆虫，还能够分析图像中的文本、图表、图标、图形和布局。
Agent：Qwen2.5-VL 直接作为一个视觉 Agent，可以推理并动态地使用工具，初步具备了使用电脑和使用手机的能力。
理解长视频和捕捉事件：Qwen2.5-VL 能够理解超过 1 小时的视频，并且这次它具备了通过精准定位相关视频片段来捕捉事件的新能力。
视觉定位：Qwen2.5-VL 可以通过生成 bounding boxes 或者 points 来准确定位图像中的物体，并能够为坐标和属性提供稳定的 JSON 输出。
结构化输出：对于发票、表单、表格等数据，Qwen2.5-VL 支持其内容的结构化输出，惠及金融、商业等领域的应用。

三、Qwen2.5-VL模型结构

与 Qwen2-VL 相比，Qwen2.5-VL 增强了模型对时间和空间尺度的感知能力，并进一步简化了网络结构以提高模型效率。
时间和图像尺寸感知
在空间维度上，Qwen2.5-VL 不仅能够动态地将不同尺寸的图像转换为不同长度的 token，还直接使用图像的实际尺寸来表示检测框和点等坐标，而不进行传统的坐标归一化。
这使得模型能够直接学习图像的尺度。
在时间维度上，引入了动态 FPS (每秒帧数)训练和绝对时间编码，将 mRoPE id 直接与时间流速对齐。
这使得模型能够通过时间维度 id 的间隔来学习时间的节奏。
更简洁高效的视觉编码器
视觉编码器在多模态大模型中扮演着至关重要的角色。
从头开始训练了一个原生动态分辨率的 ViT，包括 CLIP、视觉-语言模型对齐和端到端训练等阶段。
为了解决多模态大模型在训练和测试阶段 ViT 负载不均衡的问题，引入了窗口注意力机制，有效减少了 ViT 端的计算负担。
在ViT 设置中，只有四层是全注意力层，其余层使用窗口注意力。
最大窗口大小为 8x8，小于 8x8 的区域不需要填充，而是保持原始尺度，确保模型保持原生分辨率。
此外，为了简化整体网络结构，我们使 ViT 架构与 LLMs 更加一致，采用了 RMSNorm 和 SwiGLU 结构。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述