全球首届 AI 奥数竞赛,DeepSeekMath 成为 TOP 团队的共同选择

全球首届 AI 奥数竞赛,DeepSeekMath 成为 TOP 团队的共同选择

原创 深度求索 DeepSeek 2024年07月10日 20:32 北京

历时 3 月,在 Kaggle 社区上进行的全球首届人工智能数学奥林匹克竞赛(AIMO)于近日公布了进步奖获奖名单,在人工智能圈引起广泛关注。

我们惊喜地发现,获奖的 Top4 团队不约而同地都选择了 DeepSeekMath-7B 作为基础模型,并且取得了出乎意料的准确率。

以下为获奖名单:

图片

link:https://www.kaggle.com/competitions/ai-mathematical-olympiad-prize/leaderboard

AIMO 共包含 110 道题目,类似于高中数学竞赛中等难度的试题Gemma 7B 在公开和私有测试集上的得分是 3/50,而本次获得第一名的 Numina,达到了 29/50 的正确率。这一结果,也令数学大神陶哲轩惊叹。

AI 的数学能力已经具备了 IMO(国际数学奥赛)候选人资质。

TOP4 获奖团队公布的模型细节:

🥇第一名:

图片

我们提交的最佳方案是用 SFT 和在线强化学习算法 KTO 混合微调 deepseek-math-7b-base。

🥈第二名:

图片

我们微调了两个 DeepSeek-Math-7B-RL 模型,一个用作策略模型(生成答案),另一个作为奖励模型,对回答进行评分以调整答案的顺序。

🥉第三名:

图片

我们使用了未经微调的 DeepSeek-Math-7B-RL 模型,并通过我们制定的评分规则使用多数投票的策略选择正确答案。

🏅第四名:

图片

我们使用了 DeepSeek-Math-7B-RL,参数设置为:温度 0.9,top_p 为 1.0,最大 Token 数 2048。此模型结合了代码工具,在 MATH 基准测试中能达到 58.8% 的准确率。

图片

虽然目前仍有较多团队未公开具体方案,但很高兴通过开源模型的方式推动了技术交流与模型能力探索,这也是最初我们选择开源的重要动力,并且这一竞赛结果也很好地佐证了 DeepSeekMath 的能力。

点击跳转:DeepSeekMath,一个 7B 模型但有逼近 GPT-4 的数学推理能力,在 MATH 基准榜单上超过一众 30B~70B 的开源模型。(发布于 2024 年 2 月 6 日)

再次祝贺所有获奖队伍!

目前,DeepSeek-Coder-V2 已经集成了 DeepSeekMath 的数学能力。欢迎前往官网免费体验【代码助手 V2】或至开放平台调用 deepseek-coder。

访问官网:coder.deepseek.com

访问开放平台:platform.deepseek.com

未来,我们将会继续打造性能更强大的模型,我们相信,只有强大的模型能力、普惠的技术应用,才能开启人工智能发展的新篇章。

我们共同的星辰大海是 AGI。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值