16专家MOE生成模型（基于Qwen 30B-A3B微调）：Qwen3-30B-A6B-16-Extreme

Open-source-AI

于 2025-05-19 14:00:00 发布

阅读量677

点赞数 26

分类专栏：前沿文章标签：人工智能深度学习 moe 文本生成

本文链接：https://blog.csdn.net/weixin_52582710/article/details/148056173

版权

前沿专栏收录该内容

140 篇文章

订阅专栏

Qwen3-30B-A6B-16-Extreme 模型速览

一、模型概述

Qwen3-30B-A6B-16-Extreme 是一个基于 Qwen 的 “Qwen 30B-A3B”（MOE，即 Mixture of Experts）模型的简单微调版本。它将使用的专家数量从 8 个增加到 16 个（总共 128 个专家）。该模型以"安全张量"格式提供完整的精确源代码，可以生成 GGUFs、GPTQ、EXL2、AWQ、HQQ 等多种格式，也可以直接使用源代码。使用 16 个专家的设置，虽然会使模型速度减慢，但可以利用更多的专家来处理提示信息，使用 6B（总共 30B）参数，而不是原来的 3B（总共 30B）参数。这种模型适用于更复杂或需要更精细处理的用例。

二、模型特点

专家数量：使用 16 个专家，而不是默认的 8 个。
速度：使用 16 个专家会使模型的 token/second 速度大约减半。
上下文大小：支持 32K 上下文，加上 8K 输出，总共 40k。
模板支持：支持 Jinja 模板或 CHATML 模板。
灵活性：由于模型的独特特性，GGUF 量化可以在 CPU、GPU 或部分 GPU 加速下运行，甚至可以达到全精度。
Imatrix 难度：该模型较难进行 Imatrix，需要更大的 Imatrix 文件、多种语言和多种内容（如代码/文本）。

三、模型应用

复杂用例：适用于需要更复杂的语言处理能力的场景，如深度分析、复杂问题解答等。
不同专家版本：还提供了不同专家数量的版本，如 4 个、12 个、24 个专家的模型，以满足不同复杂度的需求。
系统角色：可以设置系统角色，以指导模型的行为和输出风格。

四、模型性能

GPU 速度：与 CPU 速度相比，GPU 速度可以快 4 到 8 倍甚至更高，使其在与其他"30B"模型相比时性能非常出色。
量化版本：提供了多种量化版本，如 Q4KS，以及更高精度的版本，以满足不同性能需求。

五、模型设置与参数

重要文档：提供了一个关于最大化性能的文档，详细介绍了关键参数、采样器和高级采样器设置。
参数设置：强调了为不同用例正确设置参数的重要性，特别是对于 Class 3/4 模型。
通用性：这些设置不仅适用于该模型，还可以用于任何模型、仓库、量化类型和全精度操作，以提升性能。

六、示例生成

文档提供了两个示例生成，用于展示模型的能力：

示例 1：讨论了如何利用夜间的辐射冷却来降低地球温度。这个示例展示了模型在科学和环境问题上的应用。
示例 2：一个科幻故事，讲述了一个宇航员在飞船驾驶舱内试图在飞船电力耗尽前发送最后的信息回地球。这个示例展示了模型在创意写作上的能力。

七、核心内容汇总表

在这里插入图片描述

八、结论

Qwen3-30B-A6B-16-Extreme 模型在处理复杂任务和需要更精细处理的用例中表现出色。通过增加专家数量，它能够利用更多的参数来增强处理能力。尽管速度会有所降低，但其在 GPU 上的卓越性能和多种量化支持使其成为一个灵活且强大的工具。对于需要深度分析和复杂问题解答的用户来说，这个模型是一个值得尝试的选择。