单张4090能运行的最强开源大模型是哪个?

qwen抢先在deepseek-r2之前,发布了自己的[qwen3]系列模型。根据千问的文档,满血版Qwen/Qwen3-235B-A22B性能超过了ds-r1。当然针对于4090,无论是235B的满血还是任意量化版,那都是不可能的。此外,评价自家的新的MoE小模型30b-a3b超过了原来的qwq32b。虽然千问文档上对自身的评价很好,但是我自己短暂的试用,没有察觉到和ds-r1以及自家qwq有明显的优势,但是考虑到用新不用旧的原则,还是调整了推荐列表。

qwen这次推出了2个版本的中小规模30B左右的模型,分别是MoE架构的qwen3:30b-a3b 和Dense架构的qwen3:32b。前者通过DS名满天下,后者则是qwen一直深耕的领域。

1、ollama上推荐(都是4bit量化):

  • qwen3:30b-a3b-q4_K_M(即默认的qwen3:30b-a3b和qwen3:30b,MoE架构),19G
  • qwen3:32b-q4_K_M(即默认的qwen3:32b,Dense架构),20G
  • deepseek-r1:32b-qwen-distill-q4_K_M(即默认的deepseek-r1:32b)ds王者还是要保留

喜欢int8精度的,依然可以选择(8bit量化)

  • qwen3:14b-q8_0(Dense)16G

2. vllm上推荐(fp8!)

  • Qwen/Qwen3-14B-FP8(Dense)16G

vllm上推荐14B,是因为这是vllm能跑起来的最大非int量化版本的qwen3了(fp8版本)。

但是代价是,必须disable掉CUDA的图模式(–enforce-eager),否则显存不够。就是大幅降低了推理速度,个人实测大约28token,对比ollama已经没有什么优势,只剩一个fp8精度好一些。但是ollama也可以用int8精度的14B,相差有,没那么大。

3. 补充一下,Qwen3增强了Agent能力

实际上就是优化对Function Calling的支持,当然也就是对目前最火的MCP强化了支持,因为两者和LLM交互的原理一致。实际测试的结果,感觉确实比qwen2.5-coder系列,以及ds系列都要好(ds的tool选择效果很一般)。tool选择,参数填写都基本一次成功,很少失败。

有机会还是换H20吧,96G显存基本够用了。

----------2025/03/08更新-------------

qwen发布了自己的推理模型QwQ,和之前DS发布的蒸馏版 qwen-r1-32b相比,个人的测试结果互有高低,难分优劣,think推理的步骤确实详细了很多,但作为最终结果质量差不多。千问官方说能与671b相比肩,但那可能至少是fp16半精度级别的有这个能力,4090上只能跑4bit量化,目前并列吧。

ollama的优先推荐:

  • qwq:32b-q4_K_M(即默认的qwq:32b)
  • deepseek-r1:32b-qwen-distill-q4_K_M(即默认的deepseek-r1:32b)
  • deepseek-r1:14b-qwen-distill-q8_0

千问官方在hf和魔搭上也提供了AWQ的4bit量化版,AWQ道理上来说会好过ollama的gguf,再通过vllm或者lmdeploy,会有更快的推理速度,但是遗憾的是这些推理框架都不支持CPU混合推理,单张4090上跑不起来。

----------2025/02/08更新-------------

考虑到量化策略问题,推荐优先级如下(ollama):

  1. DeepSeek-R1-Distill-Qwen-32B的4bit量化版(q4_K_M),即默认deepseek-r1:32b,为20G
  2. DeepSeek-R1-Distill-Qwen-14B的8bit量化版(q8),即deepseek-r1:14b-qwen-distill-q8_0,为16G,默认的14b为q4_K_M

总的来说参数大应该还是会更好一些,但KV缓存的余量就不宽裕。14B版本的话,8bit量化肯定是比4bit的效果好。青菜萝卜,各有所爱吧。

----------2025/01/27更新-------------

随着DeepSeek-R1的横空出世,目前4090上能运行的最好大模型是

DeepSeek-R1-Distill-Qwen-32B

即DeepSeek-R1在Qwen2.5-32B基础上的蒸馏版,ollama模型名为deepseek-r1:32b。qwen2.5-32b本身就很强,强强组合,实属目前单卡运行最强。deepseek还提供了1.5B~70B的各个规模的蒸馏模型,丰俭由人。甚至1.5b的水平都很不错,纯凭感觉能PK去年年初的7b/8b,而且纯CPU跑问题不大。

  • DeepSeek-R1-Distill-Qwen-1.5B
  • DeepSeek-R1-Distill-Qwen-7B
  • DeepSeek-R1-Distill-Llama-8B
  • DeepSeek-R1-Distill-Qwen-14B
  • DeepSeek-R1-Distill-Qwen-32B
  • DeepSeek-R1-Distill-Llama-70B

DeepSeek-R1完全体是671B,即使是ollama的GGUF量化模型也高达404G,单卡不能指望。

----------2024/11/12更新-------------

都是coder系。

  1. 随着今天最新的Qwen2.5-coder:14b和Qwen2.5-coder:32b的发布,ollama上能跑的最好的,具备实用性的已经是Qwen2.5-coder:32b!20G大小,单卡4090居然还很流畅,推理速度可接受,占据显存22.5G。真是山猪吃上了细糠,暂时满足了。

当然Qwen2.5-coder:14b的表现,更没有问题,9G大小,和deepseek:16b持平,但是感觉更好。推理速度虽然比不上lmdeploy,比在线的那是好很多。以上都是GGUF量化的4bit版本。

\2. 不过,推理速度最快的,还得是lmdeploy+qwen2.5-coder:14b,依然秒出。–cache-max-entry-count=0.6参数下占据显存20G左右,完全无压力。可惜的是lmdeploy不支持cpu,所以24G的4090跑不动Qwen2.5-coder:32b,只能上14b。以上都是AWQ量化的4bit版本。

简而言之:

  • ollama + Qwen2.5-coder:32b 质量向
  • lmdeploy+qwen2.5-coder:14b 速度向

各擅胜场,我自己还是lmdeploy+qwen2.5-coder:14b 速度向 更喜欢一些。AWQ效果,理论上也会更好一些。

---------------------

  1. 我在单卡4090上,通过ollama上跑的模型,到现在为止效果最好的是:

最近新出的,qwen2.5:14b 和 deepseek-v2:16b,都在9G左右,4090能轻松应对,实用性很好。感觉效果好于大牌的llama3.1:8b,phi3:14b,gemma2:9b之类的。编码向的qwen2.5-coder:7b也很不错,虽说只有7b,比起之前的1,和1.5,那效果提升很多。上海人工智能实验室的internlm2:7b也很不错。上面的都是4bit的量化版本。

  1. 实际综合效果最好的是:

LMDeploy + qwen2.5-coder:7b的组合,因为LMDeploy对KV的优化,推理速度极快,在4090上可以做到token秒出,非常爽快的体验。

需要注意的是,为了缓存token,LMDeploy会默认占用模型加载后显存的80%,所以会吃掉很多显存,7B的6G小模型,启动后占用约21G。可以通过–cache-max-entry-count 指定,我个人测试,改成0.5也不怎样影响体验。

那么,如何系统的去学习大模型LLM?

作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
在这里插入图片描述
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值