阿里推出世界最强的数学模型Qwen2-Math,击败GPT4o、Claude3.5

上周,阿里通义团队宣布,模型又迎来了一次升级,他们推出了专用于解决数学问题的Qwen2-Math!

Qwen2-Math模型简介

通义千问的数学模型包括Qwen2-Math 和 Qwen2-Math-Instruct-1.5B/7B/72B。这批模型是一系列基于 Qwen2 LLM 构建的专用数学语言模型,其数学能力明显强于开源模型甚至闭源模型(如 GPT-4o)的数学能力。

根据研发团队的评测,其中量最大的数学模型Qwen2-Math-72B-Instruct登顶全服最强,拳打GPT-4o、Claude-3.5-Sonnet,脚踢Gemini-1.5-Pro和Llama-3.1-405B。

基础模型 Qwen2-Math

Qwen2-Math 的基础模型使用Qwen2-1.5B/7B/72B 进行初始化,然后在团队构建的数学专用数据上进行预训练。数据包含通义千问合成的大规模高质量数学网络内容、数学书籍、代码、试题和数学预训练数据。比如这就是其中一道用来训练的数学题:

好吧,笔者承认,我已经不会做这道题了——当然也不能在几秒钟内回答。

值得注意的是,千问在训练的时候用了自己生产的数学内容。笔者之前报道过,用AI生产的数据训练AI有可能会让AI崩掉。而通义千问完美规避了在这个坏消息,足以说明研发团队在数据选择上费了很多功夫,他们对训练前和训练后的数据集都进行了筛选。

团队使用三个广泛使用的英语数学基准GSM8K(小学数学基准)、Math和MMLU-STEM和三个中国数学基准CMATH、高考数学小题和高考数学大题出了数学试卷考验Qwen2-Math基础模型。从得分上看,通义千问“遥遥领先”。

指令调优模型Qwen2-Math-Instruct

为了优化现有的模型,团队首先训练了一个基于Qwen2-Math-72B 的数学特定奖励模型,然后将密集的奖励信号与一个指示回答问题是否正确的信号相结合。

这个组合后的信号在两个方面发挥了作用:一是作为监督信号,通过拒绝采样(Rejection Sampling)的方式帮助构建用于后续微调(Standard Fine-Tuning,SFT)的数据集;二是在SFT之后,作为强化学习过程中的反馈信号,与群组相对策略优化(Group Relative Policy Optimization,GRPO)算法结合,进一步优化模型的性能。

于是乎,在这一套组合拳之下,升级版模型Qwen2-Math-Instruct就这样水灵灵地出来了。

在评测上,必须给他上上强度!于是除了广泛使用的基准测试(例如 GSM8K 和 Math)外,团队还使用了OlympiadBench(“五三”)、AIME2024(美国数学邀请赛)和 AMC2023(美国数学竞赛)等考试的试题,当然还有最新的2024年高考数学题和中考数学题。

从测评结果可以看出,通义千问取得了遥遥领先的成绩。

在 AIME 2024 和 AMC 2023 等更复杂的数学竞赛中,Qwen2-Math-Instruct 也表现出色。

为什么要做数学模型?

通义千问的开发者表示,他们“希望Qwen2-Math能够为社区解决复杂的数学问题做出贡献”。

目前Qwen2-Math仅仅推出了英语版本,团队宣布中英双语版本正在紧锣密鼓的开发中,多语言支持也已经提上日程了。

Qwen2-Math的收费政策也非常友好,只有月活超过1亿用户的商业行为才需要交钱——这基本上允许个人和中小企业,甚至一些大型企业免费使用 Qwen-2 Math(赚钱)。

此外,有意思的是,阿里家的通义千问似乎还不知道 Qwen-2 Math的存在(笑)。

不过,如果让Qwen2-Math来做阿里巴巴数学竞赛,它能得多少分呢?

参考资料

 [1]https://qwenlm.github.io/blog/qwen2-math/
 [2]https://venturebeat.com/ai/penguin-solutions-expands-originai-solution-to-accelerate-ai-factory-deployment-and-optimize-performance/

  • 8
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值