马斯克20万块GPU炼出Grok-3,疯狂的背后却是。。。。。。

来源:新智元

人类史上首个在20万块GPU上训出的模型终于问世!

马斯克带队三位xAI成员在线开启直播,官宣Grok-3全家桶——

Grok-3(Beta)、Grok-3 mini

首个推理模型Grok-3 Reasoning(Beta)、Grok-3 mini Reasoning:击败o3-mini/DeepSeek-R1,解锁推理时计算

首个AI智能体「DeepSearch」:联网深入搜索

4cdac128e8a7a3a23e4853d249f26af1.png

一股OpenAI发布会的味道扑面而来

据介绍,三代Grok的训练计算量竟是Grok-2的10倍,那么实际表现又如何?

ebf41198fe9d138d8a7b04bdf6fc57d1.png

b14b31e0760ff015dbe1c1132ebff3e8.jpeg

世界最大超算集群Colossus已有20万块GPU:10万块GPU同步训练(第一阶段用时122天搭建);20万GPU(第二阶段用时92天)

在多项基准测试中,Grok-3在数学(AIME 2024)、科学问答(GPQA)、编码(LCB)上刷新SOTA,大幅超越DeepSeek-V3、Gemini-2 Pro、GPT-4o。

Grok-3 mini的性能基本上领先或媲美其他闭源/开源模型。

在著名大模型LMSYS Arena排行榜中,Grok-3(chocolate终于揭秘)刷榜,Elo评分超1400位列最高,没有任何一个模型能与之相比。

Grok-3的数学能力十分惊人,几乎能完成大部分美国数学专业能力测试的题目。

75f127131477f5947d4ef4c6f4402dc3.png

更令人惊喜的是,Grok-3此次还带来了推理模型——Grok-3 Reasoning,在回答问题时会展示出思维过程。

进入聊天入口,直接选择「Think」模式,即可开启魔法。

此外,还有「Big Brain」模式、智能体「深度搜索」(Deep Search)模式同步上线。

65db7f0b9dd9945d9a2594b7fb5de9ca.png

几天前,马斯克曾在预告中放出豪言,「这是地球上最聪明的AI」,此言不虚。

27004424aadd7c71a453c4dc308d4e56.png

总爱搞点事情的奥特曼,一会儿说GPT-4.5让自己深刻感受到AGI,一会儿又要开源模型全网投票。

db35c9dbf38fc27d18a672cde47b491d.png

甚至有网友提议,不如咱就7:30pm发布GPT-4.5吧!奥特曼:这不太好吧。

奥特曼的这番言论,摆明了是要扰乱军心。据传言,Grok-3发布这一历史性时刻,OpenAI全员观战。

613a6e7d8d1d4c0f9e7c45c8ae0a51b3.png

OpenAI前脚发布的o3-mini刚刚击败了R1,如今又被Grok-3追回。不知今晚,GPT-4.5会不会降临?


暴击o3-mini、DeepSeek-R1,解锁测试时计算


有人说,Grok-3是终极的Scaling Law测试,如今看来,事实如此。

f93a9d02bd4f994bf426de1ee5386710.png

从2023年Grok-1首次面世,到Grok-1.5,再到Grok-2逐步迭代,模型推理性能飞速飙升的同时,还吞噬了大量的算力。

098328be314c2ac6571a6d7caf6503a7.jpeg

90209b768f4241c38bb8c75a5e9bc786.jpeg

Grok-3家族,更是将「测试时计算」发挥到了极致。10万块H100超算,训出的野兽几乎无「模」能敌。

它成为首个Elo评分打破1400的模型,在所有分类测试中位列第一。

99a952c38b36815de77a4294f076a504.png

在多项基准测试中,推理模型Grok-3 Reasoning和Grok-3 mini Reasoning在数学、科学、编码上,性能均大幅超越o3-mini(high)、o1、DeepSeek-R1,还有Gemi-2 Flash Thinking。

可以说,迄今为止最强「推理模型」,全部败给了Grok-3 Reasoning,可以说,它是名副其实的「世界上最聪明的模型」。

团队表示,允许Grok去进行更长时间的思考和推理。

250a43e977990773f6aab483f30f097c.jpeg

在最新的数学基准AIME 2025上,Grok-3两款新模型性能同样刷新SOTA,分别拿下了93和90分。

4ccc0c86ab452e3656c037dc2994f711.jpeg

顺便提一句,Grok-3思维链和o3-mini套路一样——防止被偷家xAI掩盖了部分思考过程。

5d673a3ec3ca732d1e68ce3872a112f9.png

91780c72b9808f8fda8a2582a84ddb17.gif

接下来,让我们一睹Grok-3强大的推理能力。

高级推理Think

首先是一个太空飞船任务,生成一个地球发射、火星着陆以及下一次发射窗口返回地球的动画3D代码。

注意,这个问题的难点在于,过程中涉及到了大量数学和物理模型的计算。在此之前,团队从未试过让大模型去计算航天的发射窗口。

在「Think」模式下,可以看到Grok的思维痕迹,甚至可以进去看看Grok在解决问题时到底在想什么。

c3f9e220e812f0b3f3db65aef11206fe.jpeg

652e02d52efa2d11d8f7be366235a2e2.jpeg

Grok 3很快生成了完整可运行的3D动画。在代码中,Grok-3数值上求解了开普勒定律。

b22974e9b4c97ddcb65600f0394b173d.png

下图是3D动画的画面,直观展示了任务过程中,太阳、地球、火星和飞船之间的位置关系。

甚至,宇航员可以据此直接算出出舱时间和距离。这上面有地球-火星往返的转移路径,这种穿越每26个月发生一次。接下来,我们现在正处于一个过渡窗口期。

研究者经过检查后激动表示:Grok-3给的答案完全正确!

最后马斯克揭开谜底:其实,这就是SpaceX真正的探索轨道。他充满信心地表示,两年内,地球和火星就会被连接在一起。

89af0c8efd7b438cc42144ab52e33a83.gif

很快有网友评论,「可以确认,Grok-3强得离谱!」

与之相对比的是,o1、o1-pro、o3-mini(high)全都在这个问题上栽了:生成一段代码,实现从地球发射、登陆火星,然后在下一个发射窗口返回地球的3D动画。

「它们生成的代码能跑是能跑,但很不幸,飞船根本就没靠近过火星,更别说回来了。」该网友表示。

458a76923c8b5202fa5d44c868733f2a.jpeg

然后团队又让Grok-3制作一个游戏。要求是结合俄罗斯方块和宝石迷阵两个游戏的混合体。

「显然,如果你让AI去创作一款像俄罗斯方块这样的游戏,互联网上有许多例子,或者类似宝石迷阵的游戏。它可以复制它们。」演示人员表示。

所以,现场他们让Grok-3制作了一个结合了俄罗斯方块和宝石迷阵两个游戏的混合体,这次他们使用了「Big Brain」模式,可以使用更多计算能力的一种模式。

Grok-3随后开始使用python编写代码,可以看出它调用了pygame、random和time这3个库来完成游戏的编写。

2d3afb44b7dc7b3f4881e585035704aa.jpeg

代码完成后,Grok-3生成的俄罗斯方块和宝石迷阵两个游戏的混合体成功运行,虽然游戏逻辑有些随意,但是界面挺美观。

「我们在x.ai准备好成立一个游戏工作室了吗?」演示人员激动地说道,「是的,所以我们正在x.ai启动一个人工智能游戏工作室。」

44a83dd3c02b5d81ec86b8ba8486d1a3.gif

在此过程中,研究者们讨论道:最好的AI模型,必须像人类一样思考,会去想所有可能的对策和解法,会自我批评、回溯,还会从第一性原理去思考。

甚至,Grok能够了解自己的逻辑和推理过程中的一些失误所在,更正自己的错误,将一些数学推理过程概念化,而现实生活中,也正是这些问题的延伸。

研究者表示,真正令人兴奋的就是,可以用Grok-3去完成现实世界中的任务,比如打造一辆特斯拉,或者去发射火箭。

这正是Grok团队目前正在思考的问题。

深度搜索DeepSearch

没想到,这一次马斯克还带来了Grok-3首个智能体——DeepSearch。

6424385ca8edec9ca152d966880a8cd2.png

DeepSearch是Grok的第一代智能体,能够在互联网上进行更深入的搜索。

它允许用户对互联网和X平台进行全面搜索。该模式分析大量信息,并通过快速高效的搜索过程提供详细、合理的答案。

此外,它的信息检索过程对用户更加透明。你可以直接告诉它只使用来自X的内容,它会尽量遵守这个要求,因此可控性更强,也更智能。

a49ac2526f4bf5579a2fb473171b0560.jpeg

我们可以问DeepSearch智能体:下一次星舰发射是什么时候?

可以看到,在左边,它展示出了搜索和推理的过程,而在右边,则展示出了深度思考过程,以及模型正在浏览什么样的网址和网页。

7e9177b673e5866f3c884468bc0f2cce.gif

最终,智能体给出了答案:25年2月24日。

4cb98f91c6ae15880bfe88aecaee42a5.png

游戏玩家还可以提问:在Poe 2中最硬核的流派是什么?

除了给出答案——炼狱师召唤流之外,智能体还在回答中给出了如何获得更多武器的攻略。

b31721d255aaa9924d637349cc291343.png

因此,比起现在普通的搜索引擎,使用Grok智能体能节约更多的时间。

Grok团队表示,从此,或许所有实习生都要失业了,我们需要的只是向大模型下任务。每个月花40美元,就能带来数十亿美元的回报。


马斯克:一周内所有功能上线,几个月内全面开源


所以,Grok-3到底什么时候开放?

对此,马斯克表示,订阅Premium Plus的X用户现在已经可以用上了。

而Grok忠实粉丝则可以单独订阅SuperGrok,从而解锁深度搜索和思考模型等先进功能,并成为早体验新特性的那一波。

全新网址是grok.com,另外App Store里也可以下载了。

马斯克强调,最新版本一定是网页版,App Store里是比较落后的。

目前,Grok-3每天都在更新推理功能,马斯克放话说:一周内,Grok的所有功能都将上线!

7e6a808c9ad6b6ed471d2f1d14479ef6.png

7166d5418a843098c5a957da7fb22955.png

传送门:https://grok.com/

Q&A

什么时候出语音助手版?会花一周时间。

Grok-3 API什么时候上线?几周内。

Grok 3语音模式是原生的,还是文本转语音?它是Grok-3的一个变体,能理解你说的话,并且直接生成音频。

Grok-3能否将音频转录成文本?没问题。这个声音模型不仅仅是语音转文字那么简单,它还具备对话记忆功能,能记得和你之前的交互记录。

马斯克表示,几个月之后会对Grok-3进行全面的开源。

Grok-3最令人兴奋的部分是什么?训练模型,以及百分百的逻辑推理,都是最难的部分,就像你需要随时随地设计宇宙的最新进展。

如何设计这样一个史上最难推理模型?研究者表示,我们花了24个月去打磨这个模型,确定它在逻辑推理上有了最新进展,同时他们使用了一个废弃工厂,数据中心之所以落地在孟菲斯,是因为既需要算力,又需要能源功能,需要1/4吉瓦来向GPU供能,同时还需要冷却设施。

此前,从没有人真正在数据中心实现过液冷,但Grok团队做到了!

为了进一步对数据中心供能,我们使用了特斯拉的Megapacks,并且重新计算了建筑物的能源供给。最终证明:团队的计算是有效的!

而且,过程中还需要把不同计算机联结在一起,共享信息。在此过程中,团队会看到模型之间供给不平衡的情况。

一方面,是对建筑供能和节能的重新设计;另一方面,团队设计了大模型,设计了全新的算法过程。

研究者表示,不知道其他大模型是否也像Grok-3一样,需要如此多的人力和物力。

当然,团队也希望在接下来,减少模型的能耗,把数据中心的耗能从1/4吉瓦降低下来,或许需要重新设计,让它成为世界上效率最高的数据中心。

AI大牛高度好评:Grok-3成就惊人

提前拿到内测资格后,AI大佬Karpathy展开了一番评测,分享的感悟比一篇文章还要长。

总结来说,Grok-3推理模型最领先,解决了卡坦岛(Settler's of Catan)难题。上传GPT-2论文后,Grok-3完成了简单的查找问题。

它没有解决黎曼假设难题,仅是说「这是一个伟大未解决的难题」。

在体验「深度搜索」功能时,结合了思考+深度研究的能力,能对需要研究、查找的问题提供高质量回答,并给出参考链接。

最后,Karpathy给出的评价是,「Grok-3 + Thinking表现似乎达到了与o1 Pro(每月200美元)相当的水平,并且略优于DeepSeek-R1和Gemini 2.0 Flash Thinking」。

大约一年前,xAI团队从0开始的,这么短时间内就达到了顶尖水平,这是前所未有的惊人成就。

f4690f639cf219fe7da2bfae41404dbf.png

Grok-3同样通过了物理模拟测试,效果堪比o3-mini。

543bb5e93e373089179b88b0fe5a9b8f.png

f9684a33411154906dae72bdd63d31bd.gif

xAI联创同样表示,「我们改进模型和系统的速度,比任何单一的里程碑都更重要。Grok-3证明了我们能够在19个月内从零起步达到了最先进的水平」。

b2eda043f4a7f51b6a2ace753a2dd291.png

此外,xAI工程师还曝出了即将上线的「高级语音模式」

3f9106ff26208130d873b129befc022c.png

Grok-3横空出世,再次把xAI带回到世界第一梯队。

用马斯克的一句话做个总结——要判断哪家公司会在技术竞争中胜出,你只需要关注其创新速度的一阶导数和二阶导数。

f841bd90bb33778788525c816dc87379.png

xAI团队胜利的这一刻,值得被记录。

9dc346b52d1f5e3ffd45f8d26428cf6c.png

奥特曼的AGI也准备就绪。

14e03fba1c73612b5a80612e659650f5.png

参考资料:

https://x.com/i/broadcasts/1gqGvjeBljOGB

推荐阅读

欢迎大家加入DLer-计算机视觉技术交流群!

大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

图片

👆 长按识别,邀请您进群!

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值