全球首届 AI 奥数竞赛,DeepSeekMath 成为 TOP 团队的共同选择
原创 深度求索 DeepSeek 2024年07月10日 20:32 北京
历时 3 月,在 Kaggle 社区上进行的全球首届人工智能数学奥林匹克竞赛(AIMO)于近日公布了进步奖获奖名单,在人工智能圈引起广泛关注。
我们惊喜地发现,获奖的 Top4 团队不约而同地都选择了 DeepSeekMath-7B 作为基础模型,并且取得了出乎意料的准确率。
以下为获奖名单:
link:https://www.kaggle.com/competitions/ai-mathematical-olympiad-prize/leaderboard
AIMO 共包含 110 道题目,类似于高中数学竞赛中等难度的试题, Gemma 7B 在公开和私有测试集上的得分是 3/50,而本次获得第一名的 Numina,达到了 29/50 的正确率。这一结果,也令数学大神陶哲轩惊叹。
AI 的数学能力已经具备了 IMO(国际数学奥赛)候选人资质。
TOP4 获奖团队公布的模型细节:
🥇第一名:
我们提交的最佳方案是用 SFT 和在线强化学习算法 KTO 混合微调 deepseek-math-7b-base。
🥈第二名:
我们微调了两个 DeepSeek-Math-7B-RL 模型,一个用作策略模型(生成答案),另一个作为奖励模型,对回答进行评分以调整答案的顺序。
🥉第三名:
我们使用了未经微调的 DeepSeek-Math-7B-RL 模型,并通过我们制定的评分规则使用多数投票的策略选择正确答案。
🏅第四名:
我们使用了 DeepSeek-Math-7B-RL,参数设置为:温度 0.9,top_p 为 1.0,最大 Token 数 2048。此模型结合了代码工具,在 MATH 基准测试中能达到 58.8% 的准确率。
虽然目前仍有较多团队未公开具体方案,但很高兴通过开源模型的方式推动了技术交流与模型能力探索,这也是最初我们选择开源的重要动力,并且这一竞赛结果也很好地佐证了 DeepSeekMath 的能力。
点击跳转:DeepSeekMath,一个 7B 模型但有逼近 GPT-4 的数学推理能力,在 MATH 基准榜单上超过一众 30B~70B 的开源模型。(发布于 2024 年 2 月 6 日)
再次祝贺所有获奖队伍!
目前,DeepSeek-Coder-V2 已经集成了 DeepSeekMath 的数学能力。欢迎前往官网免费体验【代码助手 V2】或至开放平台调用 deepseek-coder。
访问官网:coder.deepseek.com
访问开放平台:platform.deepseek.com
未来,我们将会继续打造性能更强大的模型,我们相信,只有强大的模型能力、普惠的技术应用,才能开启人工智能发展的新篇章。
我们共同的星辰大海是 AGI。