我花了5分钟，成功部署阿里QwQ-32B，秒出的感觉太爽了

最新推荐文章于 2025-04-01 17:43:42 发布

雪碧没气阿

最新推荐文章于 2025-04-01 17:43:42 发布

阅读量969

点赞数 28

文章标签： android 人工智能 AI大模型 LLM AI QwQ 大模型部署

本文链接：https://blog.csdn.net/xxue345678/article/details/146532646

版权

昨天刷family群家人的消息的时候，一条“显眼包”消息吸引了我——

这是啥啊？点进去一看——

「群聊精华总结」

真的特别需要，尤其是对于我这种每天对接各种群各种需求消息回不完的人——

仔细看一下这份**「群聊精华总结」，从今天早上 7 点半到 11 点半 family 群里一共有 111 条消息，讨论的热门话题**No.1 是「Qwen-32B 模型性能与推理特点」，No.2 是「Manus 模型评测和技术分析」。

Manus 昨天平地一声雷炸的圈子里的好多人都头脑发热了，官方和一些带节奏的人估计都度过了难忘的一天。今天圈子终于开始有点回归理性了。

其实昨天我们的文章里《为什么Manus火了》，就对技术实现和产品分析过，还是那句话，让子弹飞会儿。

今天除了五位数的邀请码一码难求，另一边复现 Manus 项目出的飞快，连卖 Manus 的课教程都冒出来了，真快啊（不过大家还是要谨慎一点擦亮眼睛）。

回到今天群聊的榜一大哥——QwQ 32B.

我翻了一下聊天记录，吐槽最多的是——

推题 token 太长，动辄 2、3 万字
一直在推理，不出东西

其实 QwQ 这个模型之前发布过一个预览版，只不过这次是正式版。也有可能再经过回炉重造过不得知了。

我看除了 X 上面，油管上讨论也挺凶的。

总之，评价就是还是挺强的。

评价这么高基于两个已知事实：

效果比肩DeepSeek-R1 671B 满血版
32B参数，比 R1 满血版小 20 倍

这是官方的效果——

在基准测试上与 DeepSeek-R1 满血版非常接近。

这是 AMIE（数学能力）测试结果——

QwQ-32B 排到了所有模型的第二。

可以说，看考试成绩，绝对是一名优等生。虽然在官网和抱抱脸 hg 上都能体验了，但是我看到好多反馈都在说——

卡，慢，排队，约等于：不可用

经常一个问题思考十几分钟没做出来。

那我就自己搞一个！

不是 671 玩不起，而是 32B 更有性价比！

这里我们部署在本地电脑上，主打开源&轻量化部署精神，所以只要有一台电脑 + 一块 24G 的显卡就行。

不敲代码、不买课，不买会员，5 分钟体验上 320 亿参数的 QwQ-32B 大模型！

先说一下我的配置：

CPU: Intel 10900k
内存: 128G DDR4 3600MHz
显卡: Nvidia 3090 24G 显存
操作系统： Windows 11

这里我用 Ollama+Chatbox 的方案，就是因为它纯纯简单。

给还没接触过的小伙伴科普一下（懂得自行跳过）——

Ollama 是一个专为大语言模型服务设计的开源工具，方便用户在本地快速部署大型模型。通过简单的安装过程，用户可以用一条命令即可启动和操作这些开源的大语言模型。

重点是：一条命令。

适合新手的本地部署教程

第一步：安装 Ollama，这一步比装原神还简单）

在官网上下载安装包就行（我选 Window）。 www.ollama.com

下载好了后直接点击安装。这个阶段不要做任何修改，一路默认设置就好。

当安装结束后先验证一下是否装成功。

打开 windows 的命令行 CMD, 输入 ollama -v，看到输出 ollama version is 0.5.13 那就证明 OK。

第二步：拉取 QwQ-32B

直接去 Ollama 网站下载即可。

Ollama 的 QWQ 模型页面: https://ollama.com/library/qwq

坑点预警：官网下载需要魔法，否则速度堪比蜗牛（推荐用国内镜像）

提供了好几个不同模型版本，比如 32b， 32b-fp16，

q4_K_M, q8_0, fp16 这些指的是模型精度。这里的 q4 指的是 4bit 量化，q8 指的是 8bit 量化，fp16 就是原版模型。

因为量化都是有损的，只要把握数字越小，模型体积越小，所以模型能力会更弱这个逻辑就行。所以 q4 就是 QwQ32b 家族中，体积最小，性能有可能是最弱的那个（不排除 8bit 量化也都差不多的效果）。

我们部署就选用 32b-q4_K_M，选用它的原因很简单，因为 3090 的 24G 显存只能装下这个模型。

Ollama 的模型包本质上是一个 微服务镜像，类似云端的模型即服务（MaaS），但设计为本地离线运行。

这样，你就完全不用考虑和底层硬件、python 依赖等等这些麻烦的问题。

里面包括模型 checkpoint、配置文件、运行时的环境（依赖库、推理引擎）、其他组件等等，提供了运行模型的一切，都打包好了。

这里你可以理解成这是大模型的 APP Store，和手机里下载应用是一样的简单。

区别这里不是下载按钮，而是在命令行 CMD 中输入如下指令，开始下载模型。

ollama pull qwq:32b-q4_K_M

如果一切顺利，就会开始正式下载模型。

请做好心理准备，下载时间会比较长。

等模型下载完成后，在 CMD 中输入下面的指令加载模型并运行，就可以开始和 Qwen QwQ 32B 模型对话。

ollama run qwq:32b-q4_K_M

看下对话效果——

可以看到，已经成功地提问对话了。

虽然 Ollama 提供了交互页面，但是是程序员风格的，虽然在我眼里是最美的，但是追求美颜的小伙还需要下载一个页面美工——

第三步：安装前端交互工具 Chatbox

这种工具的选择有很多，有 Chatbox、Cherry Studio、 Open-WebUI 等等。

我选用了 chatbox，页面长这个样——

其中 Open-WebUI 于 QwQ 的官网页面最为接近，这是因为 QwQ 的官网也是拿 Open-WebUI 魔改的。(🤣)

Chatbox 的网站: https://chatboxai.app/zh

请大家自行安装，这里就不赘述了。

安装完成后，需要进行如下设置：

点击设置
在上图 2 中的位置选择 OLLAMA API
3 的位置会自动配置好上图中的内容。
点击 4 确定。

配置完成后，你的主界面就会和下图一样:

点击红框处选择 qwq:32b-q4_K_M 模型，就可以在箭头处开始和属于你的 QwQ 模型对话了。

到此，整个本地部署全部完成。

看看效果如何

上面已经问过「9.9 和 9.11 谁大」的问题，已经可以使用了。

但为了不失严谨性，我们将会对 QwQ-32b_q4_K_M本地模型、QwQ-32b官网模型 进行简单对比，看看能复刻多少效果。

直接上题：

题目一: 银行金库里的小偷

有一个小偷费劲力气进入到了银行的金库里。在金库里他找到了一百个箱子，每一个箱子里都装满了金币。不过，只有一个箱子里装的是真的金币，剩下的 99 个箱子里都是假的。真假金币的外形和质感完全一样，任何人都无法通过肉眼分辨出来。它们只有一个区别：真金币每一个重量为 101 克，而假金币的重量是 100 克。在金库里有一个电子秤，它可以准确地测量出任何物品的重量，精确到克。但很不幸的是，这个电子秤和银行的报警系统相连接，只要被使用一次就会立刻失效。请问，小偷怎么做才能只使用一次电子秤就找到装着真金币的箱子呢？

这是一个小学奥数难度的题，我猜这他们应该都没问题，但没准也会阴沟里翻船呢，对吧 ?

先看官网 QwQ-32B的答案：