马斯克大力出奇迹，Grok3 把 o3 干翻了

夕小瑶

于 2025-02-18 21:36:20 发布

阅读量3.9k

点赞数 23

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xixiaoyaoww/article/details/145715392

版权

大家好，我是含萧。

就在刚刚，马斯克发布了 xAI 最新的模型：Grok-3 和 Grok-3 推理版！

现在 X 官网上开会员已经可以直接体验，网页和应用的所有功能会在一周内完善、API 会在几周内推出。

什么模型才让马斯克敢说是“地球上最聪明的 AI？

简单粗暴给大家汇总一下目前的信息：

Grok 3 表现超越 DeepSeek R1、GPT-o1、Gemini 2 Pro、GPT-4o、Claude 3.5
大模型盲测榜单 LYSYS Arena 有史以来首先打破 1400 分，在所有类别中排名＃1
带推理 Reasoning
带 DeepSearch 深度搜索

首先，Grok3 比 Grok2 多了十倍的计算量，而且是和 o1 一样的 Reasoning 模型。

评测结果

Grok-3 早期化名'chocolate'在 LMSYS 上开启盲测，排名第一，得分 1402，并且在所有类别中排名第一。

这次发布，马斯克还一起祭出了两个推理模型：Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning 。

看官方放出来的评测图，我震惊了。在 AIME'24，GPQA，LCB Oct-Feb 以及前几天最新发布的 AIME'25 基本都是碾压级的？！

包括最强选手和最热推理选手 o3 mini high 、Deepseek r1、 gemini2-flash-thinking 以及 o1。

Big Brain 选项

同时，Grok-3 还支持开启 Big Brain 选项，这会让 Grok3 花费更多的计算和推理时间来思考从而解决难题：

直播中还专门提到，Grok-3 在创意编程方面能力也很强。

比如，让他开启 Big Brain 选项后，生成一个结合《俄罗斯方块》和《宝石迷阵》的游戏，代码执行起来是能正常运行的。

DeepSearch 功能

Grok-3 同时也发布了 DeepSearch 功能。可以看到和 OpenAI 的 deep research 类似，它具备以下能力：

深入思考用户意图。
考虑应该选择哪些事实。
应该浏览多少个网站。
交叉验证不同的来源。

DeepSearch 还展示了其进行搜索本身所采取的步骤。

马斯克对此评价为："Next generation of search agents to understand the universe"（新一代可以理解宇宙的搜索引擎）

Andrej Karpathy：Grok3 处于和 o1 Pro 相当的水平

对于模型的实际能力，Andrej Karpathy 刚刚也发推表示：

“就今天上午大约两个小时的快速测试来看，Grok 3 开启 Reasoning 思考能力感觉处于 OpenAI 最强模型（o1-pro，每月 200 美元）的最先进领域附近，并且略优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。”

网友测评 case

收集了一些手速快的网友们的 case，看看表现咋样。

制作一个 P5.JS 素描，一堆 Groks 在一个旋转的脉动球体中弹跳。

还有一个推理的 case 测试——

超长预警！

Grok3 的使用方式

X.com 上的 Permium+ 会员可以直接使用 Gork3，网页版稍后就可以使用。

同时，SuperGrok 专属 APP 也将发布，拥有以下特权：

保证访问 Grok 3 的权限
解锁 DeepSearch 和 Think 功能
抢先体验新功能
更高的图像生成限制

在 Q&A 环节，他们表示将在几个月后对 Grok-2 进行开源，因为只有发布新一代模型之后，才会开源上一代的模型。

最后，Grok-3 还放出了一个语音模式彩蛋，我们是否可以期待马斯克版的贾维斯面世呢（狗头）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。