LLM（十八）| Anthropic发布史上最强编程模型：Claude 4

wshzd

于 2025-05-26 16:15:01 发布

阅读量921

点赞数 11

分类专栏： LLM 文章标签： AIGC 人工智能

本文链接：https://blog.csdn.net/wshzd/article/details/148232620

版权

LLM 专栏收录该内容

18 篇文章

订阅专栏

2025年5月23日凌晨，美国大模型独角兽Anthropic在其首届开发者大会上正式发布了下一代Claude模型：Claude Opus 4和Claude Sonnet 4，这也是Claude自2024年6月以来的首次大版本号更新。

Amodei称，Anthropic已经有一段时间没有更新Opus模型了，Anthropic对Opus的定位是旗下最强大、最智能的模型，而Sonnet是用户过去大约一年来一直在使用的中等水平模型。Claude Opus 4在多项基准测试上的成绩并未明显高于Claude Sonnet 4，甚至略低于后者。Amodei强调，对于Claude Opus 4这样的大型模型，基准测试并不能完全体现其能力。在Anthropic提供给客户的预览中，Claude Opus 4可以在Anthropic内部自主完成一些通常需要人类花费6到7小时的任务，Anthropic内部一些最资深的工程师都对其带来的生产力提升感到惊讶。Claude Sonnet 4在多项编程基准测试中的表现与Claude Opus 4持平，但前者更为精简，专注于编程等特定任务。Claude Sonnet 4还解决了Claude Sonnet 3.7在实际使用过程中出现的种种问题，包括过度热情（倾向于做出超出用户要求的事情）与奖励机制问题。Amodei称，Anthropic会继续改进Claude系列模型，定期发布可能的小版本更新，理想情况下，会比之前发布的频率还要高。

Anthropic将Claude Opus 4称之为“世界上最好的编程模型”，能在复杂、长时间运行的任务和智能体工作流中表现出稳定的性能。Claude Sonnet 4是Claude Sonnet 3.7的重大升级，以编程和推理能力为核心，同时能更精确地响应用户提示词。这两款模型均为混合模型，提供两种模式：即时回复和用于更深入推理的扩展思考（extended thinking）。在权威编程基准测试SWE-bench Verified上，开启扩展思考的Claude Opus 4与Claude Sonnet 4的得分分别为79.4%和80.2%，大幅度超越了OpenAI Codex-1、OpenAI o3、OpenAI GPT-4.1、Gemini 2.5 Pro等模型。

在编程、工具使用、视觉推理、数学等领域的基准测试中，这两款模型超越了OpenAI o3，而在多语言问答、研究生级别推理任务上，Claude Opus 4与OpenAI o3得分持平。新模型的智能体能力迎来升级，最高可独立运行7小时，并推出了文件API、提示词缓存等新功能。

Pro、Max、Team和Enterprise Claude订阅用户可使用上述两款Claude模型及其扩展思考模式，Sonnet 4可供免费用户使用。这两款模型都可在Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上调用，定价与之前的Opus和Sonnet模型保持一致：Claude Opus 4为每百万个token 15美元/75美元（输入/输出），Claude Sonnet 4为3美元/15美元。

Anthropic还同期发布了AI编程助手Claude Code，这一编程助手接入了Claude Opus 4模型，能实时映射和解释百万行级别的代码库。Claude Code与GitHub、GitLab、VS Code、JetBrains IDE和命令行工具集成，可直接嵌入至开发终端中。这一编程助手提供按量计费、每月100美元和每月200美元的3种订阅方案。

一、技术革新：编程与推理能力的重大突破

1.1 编程能力的飞跃

Claude Opus 4在业界权威的SWE-bench编程基准测试中取得了72.5%的高分，大幅超越了前代模型以及其他竞争对手。这一测试要求模型解决真实存在的GitHub开源项目问题，例如重构代码库、修复复杂Bug等。在终端操作基准测试Terminal-bench上，Opus 4也以43.2%的完成率创下新纪录，展现了其在处理命令行操作和自动化脚本编写方面的强大能力。

此外，Opus 4的测试数据更为令人瞩目。在Rakuten的开源项目重构任务中，Opus 4连续稳定运行7小时23分钟，期间自主完成317次代码修改，正确率高达89%。这一马拉松式的编程实践充分证明了其在处理长时间复杂任务时的稳定性和高效性。

1.2 混合推理模式的创新

Claude 4系列首次引入了“动态推理循环”机制。当用户提出简单问题时，系统采用即时响应模式，平均响应时间缩短至0.8秒。面对复杂任务时，模型则自动切换至扩展思考模式，最长支持64K token的连续思考过程。在处理航空调度优化等百步级推理任务时，模型会完整展现思考链条，而非直接输出结论，这种推理方式更接近人类的思维模式。

二、Claude 4系列模型详解

Anthropic首席产品官、Instagram联合创始人Mike Krieger详细分享了更多Claude 4的相关情况。Krieger称，Claude Opus 4擅长理解代码库并规划添加内容，从迁移、代码重构到最复杂的智能体工作流方面都非常高效且准确。Claude Sonnet 4在日常编码任务、应用程序开发和配对编程方面表现出色。它也适用于高流量用例，平衡了效率和性能，可以被视为“全天候”编码伙伴。Claude 4系列模型为打造能使用工具的智能体升级了关键的新功能。现在，Claude 4系列模型可以并行处理多种工具，当被授予访问本地文件的权限时，它们甚至可以在会话之间保持记忆，随着时间的推移积累知识。Krieger回忆，在加入Anthropic后不久，他们曾凭借Claude的帮助，仅用3人团队成功完成亚马逊Alexa语音助手原型的打造，Krieger这位“前工程师”也重拾代码亲自上阵。这次合作最终使Claude成为Alexa Plus的核心模型之一。这段经历让Krieger更坚信AI协作的潜力。如今，AI已不仅是工具，而是真正的智能协作伙伴，持续推动技术边界。Krieger提出了Anthropic认为的理想智能体三大核心能力：

（1）情境智能：理解组织背景，通过经验优化表现，像优秀员工一样越用越好；

（2）长期执行：独立处理复杂任务数小时，智能协调资源；

（3）深度协作：自然交互、适应工作风格，并保持决策透明。

为实现上述三大能力，Anthropic推出了更多新升级。Claude现在可以通过Anthropic API上的新代码执行工具运行代码，而不仅仅是编写代码，能够加载数据集、清理数据、生成探索性图表，并实时分析异常情况。在与Claude 4模型结合后，代码执行工具可以处理复杂任务，节省大量时间。Claude 4系列模型的自主性进一步提升，Claude 3.7最多可自主运行45分钟，而Claude 4可以独立运行数小时，最高达到7小时。新模型通过管理待办事项列表保持记忆，不会丢失线索。Anthropic强调，智能体的广泛采用需要提高模型对保密内容、决策和协调的判断力。如今，Claude模型的每个功能都包含架构安全检查点和控制措施，确保模型在生产环境中的可靠性。智能体的落地还需要访问现实世界的信息，并与现有系统的连接，为了帮助智能体进一步扩展，Anthropic推出了4项相互关联的新功能。

首先，开发者现在可以直接通过Anthropic API链接MCP协议（模型上下文协议）。如今，MCP协议被微软、谷歌、OpenAI、Block、Atlassian、Zapier、Linear等众多公司采用，Anthropic认为MCP有望为智能体经济奠定基础。
其次，网络搜索为Claude提供了对当前信息的实时访问。这是一种智能数据增强，允许Claude分析当前事件、市场趋势和新兴技术，与MCP功能结合使用时也非常强大。
第三，文件API今天起在Anthropic API中可用。文件API允许Claude读取和写入记忆文件，在长时间任务中保持上下文连续性。Anthropic配套发布“记忆功能食谱”，指导开发者如何集成到应用中。
最后，提示缓存功能迎来升级，TTL（生存时间）从5分钟提升至1小时，这最多能将模型的使用成本降低90%，延迟减少85%，尤其适用于长提示词场景、长时间运行的智能体工作流和需要频繁调用相同上下文的重复性任务。

Anthropic还显著减少了Claude 4模型使用快捷方式或漏洞完成任务的行为。与 Sonnet 3.7 相比，这种行为的可能性降低了65%。

Claude 4模型还推出了思维链总结功能，可使用较小的模型来浓缩冗长的思维过程。

2.1 Claude Opus 4：编程能力登峰造极

Claude Opus 4被Anthropic誉为全球顶尖的编码模型，专为复杂、长时间运行的任务设计，在AI智能体工作流方面表现出色。其核心优势包括：

卓越的编码能力：在SWE-bench和Terminal-bench测试中，分别以72.5%和43.2%的高分领先，大幅超越OpenAI的Codex-1和o3等竞品。
稳定的长期任务能力：在Rakuten的测试中，Opus 4独立完成高要求的开源重构任务，连续稳定运行7小时，展现了强大的任务处理能力。
深度推理与工具集成：Opus 4在处理复杂任务时能够自动切换到“思考模式”，调用工具（如网络搜索），形成“思考-搜索-再思考”的工作循环。
增强的内存能力：当被授予本地文件访问权限时，Opus 4能够创建和维护“内存文件”存储关键信息，提升长期任务中的感知能力、连贯性和执行性能。例如在玩《宝可梦》时创建“导航指南”。

2.2 Claude Sonnet 4：日常编程的高效助手

Claude Sonnet 4则是Sonnet 3.7的重大升级版，编码和推理能力更上一层楼，同时具备更精准的指令响应能力。其特点包括：

高效的编码能力：在SWE-bench测试中取得了72.7%的优异成绩，几乎与Claude Opus 4持平。
平衡的性能与实用性：尽管在多数领域不及Opus 4，但Sonnet 4在功能与实用性之间实现了最佳平衡，更经济实惠且适合执行常规任务。
强大的推理能力：具备混合推理模式，能够在简单问题上快速响应，在复杂问题上进行深度思考。
AI代理能力：GitHub已选择将其作为新一代Github Copilot的基础模型，多家企业也对其在代码库导航、问题解决等方面的表现给予高度评价，如iGent报告称其将导航错误率从20%降至接近零。

三、实际应用场景突破

3.1 实际编程实践中的卓越表现

在实际应用中，Claude 4系列展现了令人惊叹的能力。有开发者在社交媒体上分享自己的实测体验，仅需输入一句“给我做个CRM仪表盘”的指令，Claude 4在30秒内就完成了任务，速度之快令人惊叹。还有用户让Claude Sonnet 4一次性通关游戏，期间甚至有时间去客厅吸尘，整个过程丝滑无Bug。更有甚者，仅凭“把《皮拉内西》这本书做成p5js的3D空间”这一句话，Claude 4就成功生成了包含鸟、水体和光影效果的作品。

3.2 记忆系统与长期任务能力的升级

Claude 4在记忆系统方面也实现了重大突破。当获得本地文件访问权限后，模型可自动生成“记忆文件”，记录关键信息，实现跨会话信息继承。某游戏开发者在开发RPG游戏时，模型创建了NPC对话记录、任务进度追踪等结构化文档。在《宝可梦》游戏测试中，Opus 4自主编写了包含地图坐标、道具获取路径的导航指南。

四、开发工具的深度集成与生态适配

4.1 IDE深度集成

Claude Code在今天迎来全面开放，从研究预览转为正式产品。Claude Code产品经理Cat Wu分享说，除了接入最新模型之外，Claude Code还推出了多项新功能。Claude Code已支持VS Code和JetBrains全家桶，在使用过程中，开发者可以直接在编辑器中实时查看Claude Code建议的代码改动。在VS Code实测中，开发者输入“/添加用户登录功能”指令，模型在1分12秒内完成OAuth2.0接入、数据库表设计、前端表单生成等全套开发流程，并自动生成代码差异对比视图。这种深度集成使得开发者能够在熟悉的开发环境中无缝使用Claude 4的强大功能，大幅提升开发效率。

4.2 云平台无缝衔接

通过GitHub Actions集成，Claude Code现已实现PR自动审查。某开源项目维护者展示，在合并请求中@Claude后，系统在19分钟内完成代码审查、单元测试修复、CI/CD流程优化等全套操作，节省传统人工审查85%的时间成本。这种云平台的无缝衔接使得Claude 4能够更好地融入现代开发流程，为开发者提供更强大的支持。

4.3 Claude Code SDK

Anthropic还发布了Claude Code SDK，让开发者能够将Claude Code作为构建块融入自己的应用和工作流。为了展示其潜力，Anthropic在GitHub上开源了一个示例项目：用户可以直接在Pull Request和Issue中@Claude，它将自动响应审阅意见、修复错误并添加新功能。通过这些更新，Claude Code已经能够覆盖大部分工作场景，无论是在终端中进行深度开发、在GitHub上处理远程协作、通过SDK构建自动化工作流，还是在IDE中进行代码审查。演示环节中，Claude Code迅速完成了开源工具Excalidraw的表格组件功能开发。Claude Code会创建任务清单，探索代码库并生成代码，运行测试并提交Pull Request。它还能通过GitHub Actions自动更新文档。短短10分钟，Claude Code完成了通常需要数小时的复杂任务，极大地提升了开发效率。

由Claude Code SDK驱动的Claude Code和GitHub Actions现已可用，只需在运行命令即可安装。VS Code和JetBrains的Web IDE扩展也同步推出测试版，在IDE中运行命令即可安装。

五、安全与负责任的部署

Anthropic在Claude 4的发布中再次强调了其对AI安全的坚定承诺。Opus 4和Sonnet 4均在部署前经过了严格的安全评估。Anthropic将Claude Opus 4部署在AI安全等级3（ASL-3）标准下，而Claude Sonnet 4则在ASL-2标准下。这表明Anthropic对Opus 4的强大能力持谨慎态度，并已实施了更严格的网络安全措施、越狱预防和补充系统，以检测和拒绝特定类型的有害行为。

Anthropic宣称，Claude 4系列模型比Claude Sonnet 3.7在“奖励作弊”方面的可能性降低了65%，这进一步增强了模型的安全性和可靠性。这种对安全性的严格把控，使得Claude 4不仅在技术上领先，也在负责任的人工智能应用方面树立了新的行业标准。

六、AI编程的影响

Claude 4系列的发布，无疑为AI编程和智能体应用带来了新的机遇和挑战。随着其广泛应用，软件开发的效率将得到显著提升，一些重复性、规律性的编程任务将逐渐由AI承担，使开发者能够将更多精力投入到创新和复杂问题的解决上。然而，这也对开发者提出了新的要求，他们需要学习如何与AI智能体协作，如何利用Claude 4等工具提升工作效率，同时也要关注AI生成代码的质量和安全性。

长远来看，Claude 4的推出可能预示着编程方式的重大变革。未来，编写软件的成本可能会大幅下降，软件的开发周期也将大大缩短。这将促使企业更加灵活地响应市场需求，快速推出定制化的软件解决方案。但同时也可能引发一些伦理和版权问题，例如AI生成代码的知识产权归属、AI在软件开发中的责任界定等，这些问题需要行业和法律

Amodei称，Claude Sonnet 3.7发布仅两个半月，却感觉像过了一年，这足见AI领域的发展之快。他强调，Claude 4的模型能力来自预训练和后训练的共同进步，预训练Scaling Law依然有效，后训练技术也在同步发展，二者相辅相成。展望未来AI领域的发展，Amodei认为我们会在未来一年我们将见证编程领域的革命，从Claude Code出发，我们将进入“智能体舰队”时代，成批的智能体会将软件开发自动化，定制化软件的成本显著降低，这将重塑开发者、企业和初创公司的角色。