免费才是王者？Grok 已冲到美区榜一！XAI 发布Grok3的详细介绍文章。

最新推荐文章于 2025-04-28 18:22:34 发布

AIGC Studio

最新推荐文章于 2025-04-28 18:22:34 发布

阅读量1.4k

点赞数 20

分类专栏： AIGC AIGC前沿文章标签：人工智能 AIGC 自然语言处理语言模型

本文链接：https://blog.csdn.net/xs1997/article/details/145999480

版权

AIGC 同时被 2 个专栏收录

318 篇文章

订阅专栏

AIGC前沿

46 篇文章

订阅专栏

在 200 多万人的见证下，马斯克的 AI 公司 xAI 正式推出 Grok 3！果然，谁能让用户免费用好模型，谁就能起量。目前，Grok 应用现在已经是美区榜一了。

XAI 发布了 Grok3 的详细介绍文章

里面有各个功能的介绍和基准测试结果

详细介绍

x.ai/blog/grok-3

来自 xAI 的下一代智能

Grok 3是我们迄今为止最先进的模型：将强大的推理能力与广泛的预训练知识相结合。Grok 3 在我们的 Colossus 超级集群上进行训练，其计算能力是之前最先进模型的 10 倍，在推理、数学、编码、世界知识和指令遵循任务方面表现出显着的改进。Grok 3 的推理能力通过大规模强化学习得到改进，使其能够思考几秒到几分钟，纠正错误，探索替代方案并提供准确的答案。Grok 3 在学术基准和现实世界用户偏好方面均表现领先，在 Chatbot Arena 中获得了 1402 的 Elo 分数。与此同时，我们还推出了 Grok 3 mini，它代表了成本效益推理的新前沿。这两种模型仍在训练中，并将根据您的反馈快速发展。我们将在未来几天向用户推出 Grok 3，并提前预览其推理能力。

深入思考：测试时计算和推理

今天，我们宣布推出两个 beta 推理模型，Grok 3 (Think) 和 Grok 3 mini (Think)。它们使用强化学习 (RL) 进行了前所未有的大规模训练，以改进其思路链过程，从而以数据高效的方式实现高级推理。借助 RL，Grok 3 (Think) 学会了改进其解决问题的策略，通过回溯纠正错误，简化步骤，并利用其在预训练期间获得的知识。就像人类在解决复杂问题时一样，Grok 3 (Think) 可以花费几秒钟到几分钟的时间进行推理，通常会考虑多种方法，验证自己的解决方案，并评估如何精确满足问题的要求。

这两种模型仍处于训练阶段，但它们已经在一系列基准测试中表现出色。我们在 2025 年美国数学邀请赛 (AIME) 上测试了这些模型，该考试于 2 月 12 日刚刚发布 7 天。凭借我们最高的测试时间计算水平 (cons@64)，Grok 3 (Think) 在本次比赛中取得了 93.3% 的成绩。Grok 3 (Think) 在研究生级专家推理 (GPQA) 中也取得了 84.6% 的成绩，在 LiveCodeBench 的代码生成和问题解决中取得了 79.4% 的成绩。此外，Grok 3 mini 在不需要太多世界知识的 STEM 任务的经济高效推理方面达到了新的境界，在 AIME 2024 上达到了 95.8%，在 LiveCodeBench 上达到了 80.4%。

要使用 Grok 3 的推理功能，只需按下Think按钮即可。Grok 3 (Think) 的思维完全开放，用户不仅可以检查最终答案，还可以检查模型本身的推理过程。我们发现 Grok 3 (Think) 的性能可以推广到各种问题领域。以下是一些 Grok 3 推理示例。

大规模预训练

关闭推理功能后，Grok 3 可立即提供高质量的响应。Grok 3 在非推理模型的各种学术基准测试中均取得了最佳成绩，包括：研究生水平的科学知识 (GPQA)、常识 (MMLU-Pro)、数学竞赛问题 (AIME)。Grok 3 在图像理解 (MMMU) 和视频理解 (EgoSchema) 任务中也表现出色。

Grok 3 的上下文窗口为 100 万个标记（比我们之前的模型大 8 倍），可以处理大量文档并处理复杂提示，同时保持指令遵循的准确性。在针对长上下文 RAG 用例的 LOFT (128k) 基准测试中，Grok 3 实现了最先进的准确性（在 12 个不同任务中取平均值），展示了其强大的信息检索能力。

Grok 3 还展示了改进的事实准确性和增强的文体控制。在代号下chocolate，Grok 3 的早期版本在 LMArena Chatbot Arena 排行榜上名列前茅，在所有类别的 Elo 得分中均胜过所有竞争对手。随着我们继续扩展，我们正准备在 200,000 个 GPU 集群上训练更大的模型。

Grok 代理：结合推理和工具使用

为了理解宇宙，我们必须将 Grok 与世界联系起来。Grok 3 模型配备了代码解释器和互联网接入，可以学习查询缺失的上下文、动态调整方法并根据反馈改进推理。

作为实现这一愿景的第一步，我们推出了DeepSearch我们的第一个代理。这是一个闪电般快速的人工智能代理，旨在在整个人类知识体系中不懈地寻找真相。DeepSearch旨在综合关键信息、推理相互矛盾的事实和观点，并从复杂性中提炼出清晰的结论。无论您是需要访问最新的实时新闻、寻求有关社交困境的建议，还是进行深入的科学研究，DeepSearch都将远远超出浏览器搜索的范围。它的最终摘要跟踪结果会形成一份简明而全面的报告，帮助您跟上永不放慢脚步的世界。

Grok 3 API 即将推出

在接下来的几周内，我们将通过我们的 API 平台发布 Grok 3 和 Grok 3 mini，提供标准和推理模型的访问。DeepSearch也将通过我们的 API 发布给企业合作伙伴。

Grok 3 的下一步是什么？

Grok 3 的训练正在进行中，计划在未来几个月内频繁更新。我们很高兴在企业 API中推出新功能，包括工具使用、代码执行和高级代理功能。继上周发布RMF（风险管理框架）之后，我们特别关注在训练期间加速可扩展监督和对抗稳健性的进展。

Grok 3 现已在𝕏和Grok.com上向 𝕏 Premium 和 Premium+ 用户开放。𝕏 Premium+ 用户还将立即获得Think和的访问权限DeepSearch。此外，Grok 3 功能正在向所有 Grok 用户推出，但有使用限制。𝕏 Premium+ 用户将拥有更高的限制并可以访问高级功能。