国产第一开源大模型再创新高!通义千问Qwen2.5全面解析

最新推荐文章于 2025-05-08 16:09:17 发布

大模型微调教程

最新推荐文章于 2025-05-08 16:09:17 发布

阅读量3.8k

点赞数 20

文章标签：开源 embedding 语言模型人工智能 pdf 产品经理

本文链接：https://blog.csdn.net/weixin_72959097/article/details/143257053

版权

9月19日，阿里云在云栖大会上发布了通义千问新一代开源模型Qwen2.5。旗舰模型Qwen2.5-72B的性能超越了Llama 3-405B，再次登上全球开源大模型的王座。Qwen系列刷新了多项世界纪录，堪称中国AI技术的崛起之作。

国产第一，开源之王

Qwen2.5在多个国际权威榜单上表现出色，证明了它作为国产第一开源大模型的技术领先性。真的是遥遥领先！

9月29日基准测试平台Chatbot Arena日前公布最新大模型盲测榜单，这是海外最具公信力的大模型榜单之一。Qwen2.5再次闯入全球十强，其大语言模型Qwen2.5-72B-Instruct闯入了全球LLM前十，面对谷歌、Anthropic、Meta等强大竞争对手，成为唯一上榜的中国大模型，也是前十中唯一的开源模型。

在ZeroEval榜单上，Qwen2.5-72B-Instruct击败Llama的405B模型，成为得分最高的开源大模型。ZeroEval是个评估语言模型的统一框架，以零样本的方式提示 LM，并指示它们结构化格式输出推理步骤和最终答案。主要涵盖几类任务：用于知识推理的 MMLU-Redux、用于数学推理的 GSM 和 MATH（5 级）、用于逻辑推理的 ZebraLogic 以及用于代码推理的 CRUX。

在LiveBench基准的最新榜单上，Qwen2.5-72B-Instruct的代码能力得分超过了o1。

Qwen系列在ZeroEval榜单、LiveBench基准的榜单、中文大模型测评基准SuperCLUE、HuggingFace社区开源大模型榜单、斯坦福大学的大模型测评榜单HELM MMLU等各种知名榜单中都有一席之地。Qwen2.5作为国产第一开源大模型，不仅在国内领先，在国际上也备受关注。

权威认证，实力超群

Qwen系列自问世以来，无论是Qwen、Qwen2.0还是最新的Qwen2.5，都受到了海内外权威机构的高度关注。

专注于AI模型和API独立分析的Artificial Analysis 表示，Qwen2.5-72B在他们的测评基准Artificial Analysis Quality Index of evaluations上表现优异，整体超越Llama 3.1 -405B，是得分最高的开源大模型，而且Qwen2.5-72B的代码和数学能力足以挑战GPT-4o。

司南 OpenCompass 大语言模型评测榜 9 月榜单公布，阿里通义千问开源模型 Qwen2.5-72B-Instruct击败 Claude 3.5、GPT-4o 等闭源模型，成为该评测榜首个开源模型冠军。

司南 OpenCompass 是由上海人工智能实验室研发的大模型评测体系平台。OpenAI、阿里巴巴、智谱 AI、Meta、零一万物等百余个最主流的大模型均已加入评测，是最具国际影响力的中国权威第三方评测榜单。

Qwen2.5-72B-Instruct 在此次榜单的多项能力测评中均名列前茅。

司南 OpenCompass 评价称，Qwen2.5 的登顶，标志着开源社区在模型领域取得快速进展，以 Qwen 2.5 等为代表的国产主流厂商模型，在经历最新一轮技术迭代后，其性能有了显著提升，与国际顶尖模型之间的差距正在快速缩小，展现了国产模型的强大竞争力。

口碑爆棚，震惊中外

作为国产第一开源大模型，Qwen2.5得到了许许多多全球开发者的广泛认可和好评。

Qwen2.5的发布在海内外开源社区引发一场狂欢，这套开源模型涵盖多个尺寸的大语言模型、多模态模型、数学模型和代码模型，几乎所有尺寸的模型都实现了同等规模业界最佳性能，有国外开发者称赞通义千问称得上是真正的“开放AI”.

这次云栖大会，通义这份“开源大礼包”的质量和数量都做到了极致，一位叫Gamesh的老外兴奋地表示：“这感觉就像圣诞节，哈哈哈“。看到中国的Qwen2.5如此优秀，反而让有些老外坐不住了，催促美国厂商推出能与Qwen2.5抗衡的大模型。有的老外还批评美国别只顾着做聊天机器人，要学中国大模型百花齐放！

朱啸虎、周鸿祎等国内科技大佬也在多个场合为Qwen2.5点赞。

性能卓越，全面领先

Qwen2.5全系列涵盖多个尺寸的大语言模型、多模态模型、数学模型和代码模型，每个尺寸都有基础版本、指令跟随版本、量化版本，总计上架100多个模型，刷新业界纪录。

Qwen2.5全系列模型都在18T tokens数据上进行预训练，相比Qwen2，整体性能提升18%以上，支持高达128K的上下文长度，可生成最多8K内容，多流畅支持29种语言，大大超越了其他开源模型。

同时Qwen2.5-72B模型在MMLU-rudex基准（考察通用知识）、MBPP 基准（考察代码能力）和MATH基准（考察数学能力）的得分高达86.8、88.2、83.1。

备受期待的视觉语言模型Qwen2-VL-72B也正式开源了。Qwen2-VL能识别不同分辨率和长宽比的图片，理解20分钟以上的视频，具备自主操作手机和机器人的视觉智能体能力。

近日，权威测评LMSYS Chatbot Arena Leaderboard发布了最新一期的视觉模型性能测评结果，Qwen2-VL-72B成为全球得分最高的开源模型。

专项模型方面，用于编程的 Qwen2.5-Coder 和用于数学的Qwen2.5-Math都比前代有了实质性进步。Qwen2.5-Coder 在多达5.5T tokens的编程相关数据上作了训练，当天开源1.5B和7B版本，未来还将开源32B版本。

Qwen2.5-Math支持使用思维链和工具集成推理（TIR）解决中英双语的数学题，是迄今为止最先进的开源数学模型系列，本次开源了1.5B、7B、72B三个尺寸和一款数学奖励模型Qwen2.5-Math-RM。

引领开源，开疆拓土

自从2023年8月开源以来，通义在全球开源大模型领域后来居上，成为开发者尤其是中国开发者的首选模型。性能上，通义大模型日拱一卒，逐步赶超美国最强开源模型Llama，多次登顶Hugging Face全球大模型榜单。

通义从零起步、开疆拓土，与海内外的开源社区、生态伙伴、开发者共建生态网络，截至2024年9月中旬，通义千问开源模型下载量突破4000万，Qwen系列衍生模型总数超过7.43万个，Qwen成长为世界最大的生成式语言模型族群。

在全球范围内已有超30万企业客户接入，覆盖金融、医疗、教育等多个领域。众多高校和企业基于Qwen开发专属模型，如浙江大学的教育模型、浙江有鹿的机器人应用、以及一汽、联想、微博、携程、喜马拉雅、三得利（中国）等。

我们可以清楚地看到，Qwen2.5作为国产第一开源大模型，在性能、生态和口碑等各个方面都展现出了绝对的领先优势。它不仅代表了中国AI技术的最高水平，更在国际舞台上占据了重要地位。阿里云希望通过开源，让海量中小企业和AI开发者更早、更快地用上通义千问，推动大模型技术的普惠和应用的落地，促进中国大模型生态建设。相信在未来，这个国产第一开源大模型将继续引领行业发展，为中国乃至全球的AI技术进步做出更大贡献！