Qwen2.5大模型解读

最新推荐文章于 2025-04-11 11:21:03 发布

AI 菌

最新推荐文章于 2025-04-11 11:21:03 发布

阅读量1k

点赞数 9

分类专栏：大模型研读大模型实战专栏文章标签：大模型 Qwen 千问

本文链接：https://blog.csdn.net/wjinjie/article/details/146315897

版权

大模型研读同时被 2 个专栏收录

15 篇文章

订阅专栏

大模型实战专栏

7 篇文章

订阅专栏

文章目录

一、Qwen 简介

2023年8月，阿里首次开源通义千问第一代模型Qwen-7B，这是一个有70亿参数的通用语言模型。在此基础上，Qwen扩展了更多的参数版本，比如0.5B、14B、32B、72B等。与此同时，
Qwen也在不断扩展能力，可以支持更多的模态输入，比如先后开源了Qwen-VL视觉语言模型和Qwen-Audio音频语言模型。

在这里插入图片描述

二、Qwen2.5 解读

2.1 概要

2024年9⽉发布了 Qwen2.5系列，涵盖了多种尺⼨的⼤语⾔模型、多模态模型、数学模型以及代码模型，能够为不同领域的应⽤提供强有⼒的⽀持。不论是在⾃然语⾔处理任务中的⽂本⽣成与问答，还是在编程领域的代码⽣成与辅助，或是数学问题的求解，Qwen2.5 都能展现出⾊的表现。每种尺⼨的模型均包含基础版本、以及量化版本的指令微调模型，充分满⾜了⽤⼾在各类应⽤场景中的多样化需求。具体版本内容如下：
• Qwen2.5: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 以及72B;
• Qwen2.5-Coder: 1.5B, 7B, 以及即将推出的32B;
• Qwen2.5-Math: 1.5B, 7B, 以及72B。

在这里插入图片描述

2.2 模型架构

Qwen2.5系列是基于Transformer架构的语言模型，包括密集模型和MoE模型。

密集模型采用了Grouped Query Attention（GQA）、SwiGLU激活函数、Rotary Positional Embeddings（RoPE）以及QKV bias等技术来提高模型性能。
MoE模型则使用了专门的MoE层替换标准的feed-forward网络层，并通过细粒度专家分割和共享专家路由等策略提高了模型能力。

2.3 改进方法

Qwen2.5系列模型经过预训练和后处理两个阶段的改进，在高质量预训练数据集的基础上，通过多阶段强化学习等技术进行后处理，提高了人类偏好、长文本生成、结构数据分析和指令遵循等方面的能力：

在预训练阶段，提高数据质量：采用了更加高质量的数据集和数据混合策略，包括更好的控制令牌和数学代码数据集，以及更好的合成数据。同时，他们还引入了长上下文预训练，将初始预训练阶段的上下文长度扩展到4,096个标记，最终扩展到32,768个标记。
在post-training阶段，扩充数据范围+两阶段强化学习：作者进行了两个关键的改进：一是增加了监督式微调数据覆盖范围，包括长期序列生成、数学问题解决、编程、指令遵循、结构理解、逻辑推理、跨语言转移和稳健系统指令等方面；二是采用了两阶段强化学习，分为离线RL和在线RL，以进一步提升模型的性能。