在 200 多万人的见证下,马斯克的 AI 公司 xAI 正式推出 Grok 3! 果然,谁能让用户免费用好模型,谁就能起量。 目前,Grok 应用现在已经是美区榜一了。
XAI 发布了 Grok3 的详细介绍文章
里面有各个功能的介绍和基准测试结果
详细介绍
x.ai/blog/grok-3
来自 xAI 的下一代智能
Grok 3是我们迄今为止最先进的模型:将强大的推理能力与广泛的预训练知识相结合。Grok 3 在我们的 Colossus 超级集群上进行训练,其计算能力是之前最先进模型的 10 倍,在推理、数学、编码、世界知识和指令遵循任务方面表现出显着的改进。Grok 3 的推理能力通过大规模强化学习得到改进,使其能够思考几秒到几分钟,纠正错误,探索替代方案并提供准确的答案。Grok 3 在学术基准和现实世界用户偏好方面均表现领先,在 Chatbot Arena 中获得了 1402 的 Elo 分数。与此同时,我们还推出了 Grok 3 mini,它代表了成本效益推理的新前沿。这两种模型仍在训练中,并将根据您的反馈快速发展。我们将在未来几天向用户推出 Grok 3,并提前预览其推理能力。
深入思考:测试时计算和推理
今天,我们宣布推出两个 beta 推理模型,Grok 3 (Think) 和 Grok 3 mini (Think)。它们使用强化学习 (RL) 进行了前所未有的大规模训练,以改进其思路链过程,从而以数据高效的方式实现高级推理。借助 RL,Grok 3 (Think) 学会了改进其解决问题的策略,通过回溯纠正错误,简化步骤,并利用其在预训练期间获得的知识。就像人类在解决复杂问题时一样,Grok 3 (Think) 可以花费几秒钟到几分钟的时间进行推理,通常会考虑多种方法,验证自己的解决方案,并评估如何精确满足问题的要求。
这两种模型仍处于训练阶段,但它们已经在一系列基准测试中表现出色。我们在 2025 年美国数学邀请赛 (AIME) 上测试了这些模型,该考试于 2 月 12 日刚刚发布 7 天。凭借我们最高的测试时间计算水平 (cons@64),Grok 3 (Think) 在本次比赛中取得了 93.3% 的成绩。Grok 3 (Think) 在研究生级专家推理 (GPQA) 中也取得了 84.6% 的成绩,在 LiveCodeBench 的代码生成和问题解决中取得了 79.4% 的成绩。此外,Grok 3 mini 在不需要太多世界知识的 STEM 任务的经济高效推理方面达到了新的境界,在 AIME 2024 上达到了 95.8%,在 LiveCodeBench 上达到了 80.4%。
要使用 Grok 3 的推理功能,只需按下Think按钮即可。Grok 3 (Think) 的思维完全开放,用户不仅可以检查最终答案,还可以检查模型本身的推理过程。我们发现 Grok 3 (Think) 的性能可以推广到各种问题领域。以下是一些 Grok 3 推理示例。
大规模预训练
关闭推理功能后,Grok 3 可立即提供高质量的响应。Grok 3 在非推理模型的各种学术基准测试中均取得了最佳成绩,包括:研究生水平的科学知识 (GPQA)、常识 (MMLU-Pro)、数学竞赛问题 (AIME)。Grok 3 在图像理解 (MMMU) 和视频理解 (EgoSchema) 任务中也表现出色。
Grok 3 的上下文窗口为 100 万个标记(比我们之前的模型大 8 倍),可以处理大量文档并处理复杂提示,同时保持指令遵循的准确性。在针对长上下文 RAG 用例的 LOFT (128k) 基准测试中,Grok 3 实现了最先进的准确性(在 12 个不同任务中取平均值),展示了其强大的信息检索能力。
Grok 3 还展示了改进的事实准确性和增强的文体控制。在代号下chocolate,Grok 3 的早期版本在 LMArena Chatbot Arena 排行榜上名列前茅,在所有类别的 Elo 得分中均胜过所有竞争对手。随着我们继续扩展,我们正准备在 200,000 个 GPU 集群上训练更大的模型。
Grok 代理:结合推理和工具使用
为了理解宇宙,我们必须将 Grok 与世界联系起来。Grok 3 模型配备了代码解释器和互联网接入,可以学习查询缺失的上下文、动态调整方法并根据反馈改进推理。
作为实现这一愿景的第一步,我们推出了DeepSearch我们的第一个代理。这是一个闪电般快速的人工智能代理,旨在在整个人类知识体系中不懈地寻找真相。DeepSearch旨在综合关键信息、推理相互矛盾的事实和观点,并从复杂性中提炼出清晰的结论。无论您是需要访问最新的实时新闻、寻求有关社交困境的建议,还是进行深入的科学研究,DeepSearch都将远远超出浏览器搜索的范围。它的最终摘要跟踪结果会形成一份简明而全面的报告,帮助您跟上永不放慢脚步的世界。
Grok 3 API 即将推出
在接下来的几周内,我们将通过我们的 API 平台发布 Grok 3 和 Grok 3 mini,提供标准和推理模型的访问。DeepSearch也将通过我们的 API 发布给企业合作伙伴。
Grok 3 的下一步是什么?
Grok 3 的训练正在进行中,计划在未来几个月内频繁更新。我们很高兴在企业 API中推出新功能,包括工具使用、代码执行和高级代理功能。继上周发布RMF(风险管理框架)之后,我们特别关注在训练期间加速可扩展监督和对抗稳健性的进展。
Grok 3 现已在𝕏和Grok.com上向 𝕏 Premium 和 Premium+ 用户开放。𝕏 Premium+ 用户还将立即获得Think和的访问权限DeepSearch。此外,Grok 3 功能正在向所有 Grok 用户推出,但有使用限制。𝕏 Premium+ 用户将拥有更高的限制并可以访问高级功能。