Qwen 2.5 技术报告发布!其中有什么秘密?

Qwen2.5 如何成为最佳开源 LLM?

Qwen2.5代表了大型语言模型 (LLM) 开发的重大飞跃。最新版本在前几版的基础上全面改进了预训练和后训练方法。通过利用 18 万亿个 token 的庞大数据集,Qwen2.5 在常识推理、领域专业知识和整体语言理解方面取得了显著进步。

论文链接:https://arxiv.org/pdf/2412.15115

主要特点

1.模型配置:Qwen2.5 提供密集和混合专家 (MoE) 变体,模型大小从 5 亿到 720 亿个参数。还提供指令调优和量化版本,可针对各种应用优化性能。

2.增强训练:与 Qwen2 相比,预训练数据集增加了一倍以上,提高了数学、编码和一般推理任务的性能。包括监督微调和多阶段强化学习在内的训练后创新确保了与人类一致的输出和稳健性。

3.可扩展性:Qwen2.5-Turbo等模型最高支持100万个token,可以适应文档分析、扩展对话等长上下文应用。

Qwen2.5 有哪些改进

  1. 将预训练数据从 7T 扩展到 18T 标记,使用现有的 LLM 来过滤、分类和评分数据质量;
  2. 使用对话生成与数学、代码和知识领域相关的合成数据;
  3. 将 SFT 扩展到 100 万以上样本,涵盖长文本、数学、编码和多语言任务;
  4. 将指令翻译成不同的语言以提高多语言能力;
  5. 将 CoT 与拒绝采样相结合以生成高质量的数学数据;
  6. 在 150K 个训练对上使用离线强化学习 (DPO),重点关注复杂任务,然后与 SFT 模型合并;
  7. 应用在线强化学习 (GRPO),使用 72B 奖励模型对真实性、帮助性和安全性进行训练,并抽样 8 个回复答案;

Qwen2.5 亮点

  • 经过训练的基础模型和 7 种大小的指令调整模型:0.5B、1.5B、3B、7B、14B、32B 和 72;
  • 🧠架构:GQA、SwiGLU、RoPE、QKV 在注意力和 RMSNorm 中的偏差;
  • ⚖️使用 Qwen2-Instruct 对不同领域的内容进行分类和平衡;
  • 📈将预训练的 7T 令牌增加到 18T 令牌可提高所有任务的性能;
  • 💡使用 LLM 过滤训练数据比以前的方法有了显著的进步;
  • 💪🏻 SFT 模型训练了两个时期,LR 从 7e-6 下降到 7e − 7;
  • 🥋 DPO 在 150,000 个样本上训练了 1 个 epoch,LR 为 7e-7;
  • 🔄多阶段后训练:结合 SFT、DPO、Merging 和 GRPO;

核心突破:

智能训练架构

  • 采用"由浅入深"的分阶段训练
  • 结合离线和在线强化学习
  • 目标:让模型既精通基础任务,又能处理复杂场景

长文本处理能力

  • 通过 YARN 和 DCA 技术实现突破
  • Turbo 版本可处理 100万tokens
  • 保持了短文本处理的高性能

高质量数据策略

  • 智能过滤机制确保数据质量
  • 重点强化数学和编程领域
  • 使用专业模型优化合成数据

参考资料

### Qwen2.5 技术详情 #### 总体概述 Qwen2.5 是阿里巴巴通义千问系列中的一个重要版本,因其卓越的性能和广泛的应用场景而受到广泛关注。这一模型在 2024 年云栖大会上正式发布,标志着其进入了更广阔的开发者和技术研究者视野[^1]。 #### 多模态能力增强 Qwen2.5-VL 是 Qwen2.5 系列的一个重要分支,专注于多模态任务的表现提升。通过引入动态分辨率处理、绝对时间编码以及窗口注意力机制等创新技术Qwen2.5-VL 显著增强了其在多模态理解和交互方面的能力。这些改进不仅提高了计算效率,还在多个基准测试中展现了领先的性能表现[^3]。 #### 编码与指令优化 针对编程领域的需求,Qwen2.5-Coder-Instruct 进一步扩展了通用大模型的功能边界。评估结果显示,该变种模型成功继承并强化了 Qwen2.5 原有的强大通用能力,在解决复杂编程问题时表现出色[^2]。 #### 架构设计与参数规模 虽然具体参数量未被完全公开披露,但从已知信息可以推测,Qwen2.5 继承了前代产品的大规模参数特性,并在此基础上进行了针对性调整以适应不同应用场景需求。这种灵活的设计使得 Qwen2.5 不仅能够在自然语言处理任务上取得优异成绩,还能有效应对跨模态融合挑战。 以下是部分关键技术亮点总结: - **动态分辨率处理**:允许根据不同输入内容自动调节图像或其他媒体形式的空间维度大小,从而减少冗余运算开销。 - **绝对时间编码**:相比传统相对位置嵌入方式更加稳定可靠,尤其适用于长时间序列建模场合。 - **窗口注意力机制**:局部化操作降低了全局依赖带来的资源消耗,同时保留必要的上下文关联性。 ```python # 示例代码展示如何加载预训练好的 Qwen2.5 模型 (假设基于 HuggingFace Transformers 库实现) from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("qwen/Qwen2.5") model = AutoModelForCausalLM.from_pretrained("qwen/Qwen2.5") input_text = "请介绍一下 Qwen2.5 的主要功能" inputs = tokenizer(input_text, return_tensors="pt") outputs = model.generate(**inputs) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值