高可用架构-CSDN博客

转载从Prompt、Context到Harness，工程的三次进化与终局之战

同时，强制要求散落各处的决策记录（Slack、邮件、文档）全部迁移至代码仓库，确保 Agent 的唯一信息来源是可信的、版本受控的仓库。更坑爹的是，研究表明，当上下文过长时，模型会出现"中间遗忘（Lost in the Middle）"现象：它对开头和结尾的内容记忆较好，对中间大段内容的关注度大幅下降。这篇文章，我想带你完整走一遍这三次进化的逻辑：它们分别解决了什么问题，它们之间是什么关系，它们的边界在哪里，以及：当三者融合，AI 工程师的终极形态究竟是什么？大语言模型的本质，就是这位金鱼助理。

2026-05-27 13:42:43 30

转载我用 Claude 搭了个自动新闻简报，30天后比我刷了一年的信息还有用

它会读取你配置的所有信息源，行业新闻、竞品网站、你所在领域的学术论文、特定 newsletter、发研究内容的 YouTube 频道、播客文字稿、你关注的 GitHub 仓库、你细分领域的 Reddit 社区。每天早上，在你打开任何东西之前，Claude Agent 已经把你工作相关的信息源全读完了，无关内容滤掉，值得知道的新进展综合好，一份结构清晰的 5 分钟简报放进你的 Obsidian vault。它告诉 Claude 你做什么、关心什么、已经知道什么，以及什么样的信息对你来说是真正可执行的。

2026-05-26 11:24:28 76

转载我用 7 天把 AI Agent 的 Token 账单砍掉 87%（附代码）

导读：本文是一篇详细的 AI agent 成本优化指南，指出 2026 年 token 费用失控主要源于工程问题而非模型选择，提供7天实战计划，通过审计花费、开启提示缓存、压缩上下文、按任务路由模型等措施，可将月账单从 4800 美元降至 620 美元，节省 87%。作者推荐先用 Helicone、Langfuse 或 Portkey 等工具建立可观测性，找出高耗函数和异常，然后实施提示缓存（Anthropic 可达 90% 折扣）、上下文预算控制和重试循环限制，强调“怀疑调试”纪律以避免优化反弹。这个季度

2026-05-25 11:18:49 62

转载 QQ音乐Harness Engineering实践

当 AI 开始快速生成大量代码，真正的瓶颈就不再是"写不出来"，而是"看不完、想不清、管不住"。当 AI 开始快速生成大量代码，真正的瓶颈就不再是"写不出来"，而是"看不完、想不清、管不住"。在对话式编码阶段，一种典型的工作模式逐渐流行：开发者把需求丢给 AI，扫一眼输出"看起来对"就直接采纳，不审 diff、不追问逻辑、不验证边界。以音乐商业化业务为例，一个需求可能从 TAPD 单开始，经过需求评审、技术方案、服务影响面分析、IDL 契约变更、业务代码实现、测试验证、CR、灰度上线，最后才进入稳定运行。

2026-05-22 12:21:07 45

转载 Hermes Agent 到底能干什么？16 个分类、276 个用例的完整答案

导读：大多数人还在把 AI 当成聊天机器人，但部分开发者已经在做完全不同的事：让 AI 自主写代码、运营业务、管理研究，甚至 24/7 在线协调其他 Agent。来自 GitHub、Reddit、X、YouTube、Hacker News、博客、Product Hunt、LinkedIn 和生产部署的 16 个类别、276 个真实 Hermes Agent 用例。“9 个 Hermes Agent，两个相互竞争的 AI 公司，通过 GitHub star 较量。坦白说，这看起来已经不再像是”AI 工具”。

2026-05-21 12:29:07 93

转载 Evals 到底在评什么？一文拆解 AI 评估的三种方法

成熟团队不会把 evals 当成上线前的一次性考试，而是把它放进完整循环里：从生产 traces 中发现失败模式，沉淀数据集和黄金样例，用 evals 比较 prompt、模型和系统设计改动，再通过 CI 门禁、灰度发布、线上监控和漂移检测持续回流。无参考答案评估器、用户反馈信号，以及其他适合生产环境的安全检查，都可以应用到实时流量上，用来确认生产环境中的质量是否与部署前看到的一致。无参考答案评估器的优势在于，它们可以应用到未见过的生产数据上，而基于参考答案的评估器始终需要一个预先定义好的参考回答。

2026-05-20 11:50:35 49

转载我把 Karpathy 的 AutoResearch 搬到了软件开发领域，效果炸了

不同模型有不同的盲区和强项，交叉审核能发现单 Agent 发现不了的问题。Karpathy 和达尔文.skill 用 git revert 做硬性保护（退化就回滚），本项目用多 Agent 交叉审核做软性保护（审核反馈驱动改进，并没有做回退机制，原因在于ClaudeCode/Codex自己足够智能决定回退还是改进上一轮的变动）。解决了人的 chat 交互问题，但本质是单个 Agent 的自我循环——自己写、自己测、自己改，没有外部审核视角，质量全靠测试 backpressure 和 prompt 工夫。

2026-05-18 09:50:29 104

转载用 Claude 实现多智能体系统：一个人如何跑起 4 个 AI 专家团队

4个智能体分为研究、生产、质量、分发，加上协调器管理流程，提供完整文件夹结构、系统提示模板和 Claude Code 设置步骤，实现清晰的角色分工与任务交接。没有质量智能体时，生产智能体输出的每篇内容都会直接进入分发，不管质量如何。当你构建四个专门化智能体，让它们有清晰角色、明确交接，并由一个主编排器协调，你会在每个环节得到出色输出，因为每个智能体都只把一件事做好。生产智能体无法补上研究智能体没有发现的洞察。四个智能体代表了知识工作的最小可行团队结构，覆盖完整循环：输入与研究、生产、质量控制、输出与分发。

2026-05-14 12:20:55 54

转载别再死磕提示词了，真正拉开差距的是上下文工程

如果一个人能走进一家公司，审计它的 AI 工作流，设计上下文架构，实施记忆系统，连接 MCP 工具，并交付生产级 AI 系统，那么公司现在愿意为每个项目支付 5,000 到 25,000 美元。企业需要的 AI 系统，必须理解它们的具体领域，遵守它们的具体规则，访问它们的具体数据，并产出符合它们具体标准的结果。那些真正能工作的 AI 系统，能记住你的偏好，访问你的数据，稳定遵守你的规则，并且日复一日地产出可靠结果。拥有设计良好的记忆系统的 AI，只会记住你希望它记住的内容，并随着你的最新思考不断更新。

2026-05-12 10:35:01 28

转载 Claude写代码错误率从41%降到11%：Karpathy的4条规则为什么不够

Claude 写了两者兼有的新代码。导读：本文详细扩展了 Claude AI 编码的 CLAUDE.md 模板，从 Karpathy 2026 年 1 月原 4 条规则增至 12 条，针对 5 月出现的 agent 冲突、多步工作流和 token 预算等问题提供具体修复。Karpathy 的规则瞄准的是 Claude 正在写代码的那个时刻。加上下面要讲的 8 条规则，你覆盖的就不只是 Karpathy 在 2026 年 1 月抱怨的写代码问题，还包括 2026 年 5 月才出现的 agent 编排问题。

2026-05-11 11:28:18 647 1

转载 Ralph Loop 不够用：长时间 Agent 还缺这 3 件事

作者提出了一种优化工作流：前期通过 “interview/grill-me” 阶段大幅降低任务模糊性，将目标拆解为里程碑，再用主编排器+ sub-agent（实现者+评审者）模式，并维护 GOAL.md、STANDARDS.md 等持久化记忆文件实现跨上下文连续性。导读：Jarrod Watts 作为 Monad 首席 AI 工程师，详细分析了 Codex /goal 长运行 agent 机制，发现其本质是重复提示循环加 SQLite 跟踪，但易导致歧义随迭代 compounding，影响最终输出质量。

2026-05-08 12:24:09 69

转载我给Hermes配了4个Agent，真正有用的是这些事

我看着 X 时间线上大家聊得热火朝天，又是各种新东西，又是 Mac Mini 狂热潮，自己坐在那里一头雾水，但我确实很想参与进去。我用这个 Agent 在网上搜索相关研究和新闻，也会让它处理一些很简单的事情，比如“唉，今晚该做什么晚饭”，因为我吃的每一餐都要自己做。我会说，这个 Agent 反而最让我“惊讶”，因为我是在一个很小的本地模型上跑它。写到这里时，我觉得接下来还要让它提醒我检查坐姿（过去六个月我一直在努力修复多年伏案工作造成的问题），以及提醒我起来活动。我会让它做苦活，然后由我验证，再继续推进。

2026-05-06 09:52:17 199

转载 Agent架构关键变化：Harness正在成为新后端

iii 提供浏览器 SDK，所以某个人笔记本上的一个 tab 可以注册 functions，参与实时发现，调用后端 functions，也可以被后端 functions 调用。iii 下的是另一个赌注：正确的 primitives，也就是 worker、trigger、function，足够小，也足够通用，所以“什么能参与这个系统？添加一个 worker。它可以是对 function 的直接调用，可以是一个 HTTP endpoint，可以是 cron 调度、队列订阅、状态变化、流事件，或者任何其他东西。

2026-04-30 08:33:41 71

转载明星开源项目，为什么开始离开 GitHub？

我对 GitHub 的爱超过了一个人对一件东西应有的爱，所以我对它生气。你知道吗，我开始做 Vagrant，也就是我第一个成功的开源项目，很大程度上是因为我希望它能帮我得到一份 GitHub 的工作？在我第一次公开演讲 Vagrant 时，我才 20 岁，我开玩笑说：“如果它够好，也许 GitHub 会雇我！几个月来，我们一直在讨论并制定离开 GitHub 的计划，而这篇博客文章是一周多以前写好的。Ghostty 是我、我们的维护者以及我们的开源社区受影响最大的地方，所以这是这次变更的重点。

2026-04-29 07:47:40 105

转载 300万人在存的Claude提示词

导读：- 本文由 AI 研究者 @eng_khairallah1 发布，他测试 500 多个提示词后精选出40个结构化模板，覆盖写作、策略分析、技术开发、生产力、数据解读和沟通等领域，可在Claude、ChatGPT和Gemini上稳定产出专家级输出。我需要与 [谁，包括角色、关系] 就 [主题] 进行一次困难对话。我即将与 [谁] 就 [什么] 进行谈判。帮我为 [团队/个人/公司] 创建 [时间段] 的 OKR。我需要给 [谁，包括角色、关系] 关于 [什么，具体行为或工作] 的反馈。

2026-04-28 08:52:06 55

转载别再把上下文当聊天记录

当一个文件在 agent 的上下文中处于“打开”状态时，它可见的内容会被截断到一个按文件计算的字符上限，这个上限会随模型上下文窗口分为五档：8K 上下文对应 5,000 个字符，32K 对应 15,000，128K 对应 25,000，200K+ 对应 40,000。可同时打开的文件数量也会扩展，小模型为 3 个，超大模型最高 15 个，兜底默认值为 5。随着会话变长，文件读取膨胀，子智能体调用增多，工具输出堆积，harness 必须决定哪些内容留在工作集里，哪些被压缩，哪些之后再检索。

2026-04-27 07:55:21 43

转载 Claude 发布官方报告，承认存在 3 处质量退化问题

3 月 26 日，我们上线了一个改动：对于闲置超过 1 小时的会话，清除 Claude 较早的思考内容，以降低用户重新进入会话时的延迟。作为这次调查的一部分，我们又做了更多 ablation，也就是逐行移除 system prompt 中的指令，来理解每一行的具体影响，并使用了一组覆盖面更广的评测。发布后不久，我们收到用户反馈，表示 Claude Opus 4.6 在 high effort 模式下偶尔会思考过久，导致 UI 看起来像是冻结，并给这些用户带来不成比例的延迟和 token 消耗。

2026-04-24 09:25:13 130

转载刚刚Opus 4.7发布，相比4.6核心变化，与Claude Code搭配最佳实践

中提到过，两项变化会影响 token 用量，一是更新了 tokenizer，二是模型在更高 effort 等级下，尤其是在更长会话的后续轮次中，更倾向于进行更多思考。Opus 4.7 的 token 用量和行为表现，会因为你的部署方式不同而变化，尤其取决于你是在运行单轮输入、更加自主且异步的编码智能体，还是多轮交互、同步配合的编码智能体。与 Opus 4.6 相比，它更擅长处理模糊问题，在找 bug 和做代码审查方面强得多，能够更稳定地跨会话保持上下文，也能在更少指令的情况下推理那些定义不够清晰的任务。

2026-04-17 07:50:23 202

转载使用Claude Code：session管理与1M上下文

这就像是“未来的 Claude”给“过去的 Claude”留的小便条，告诉它哪里踩坑了。：你亲自动手写下重点（“我们正在重构 auth 中间件，限制条件是 X，相关文件是 A 和 B，已排除方案 Y”），然后干干净净地开始。假设你刚刚让 Claude 完成了一项任务，现在你的上下文中已经包含了一些信息（工具调用、输出、你的指令）。有了 1M 上下文，你有更充裕的时间根据接下来的计划，主动运行带描述的。当你接近窗口上限时，你需要将当前任务总结成一段较短的描述，并在新的上下文窗口中继续工作，我们称之为。

2026-04-16 07:59:55 436

转载很多企业做完 AI PoC，为什么还是上不了生产

大量公开内容还停留在概念讨论、产品展示和趋势判断层面，可企业真正缺的是一线项目里那些不太好写进宣传材料的经验，比如架构为什么这么选，系统为什么会失稳，成本为什么压不下来，哪些路径在真实生产中走得通，哪些看起来很先进但暂时不适合自己。企业需要的是一套更成熟的智能体原生架构，让决策路径更清晰，执行过程更可控，系统能够持续迭代，而不是靠人肉兜底。前期投入不少，模型效果也能展示，可一旦进入真实业务，问题很快就会换一套：算力成本压不住，延迟和稳定性波动明显，智能体在复杂流程里不够可控，安全、评测、协同体系也跟不上。

2026-04-15 12:02:58 56

转载一名谷歌工程师如何利用 Claude Code 简化 80% 工作

现在他每天只需工作 2-3 小时，而不是 8 小时，其余时间都在休息，而系统自动运行并为他赚取了 28,000 美元的被动收入。Andrej Karpathy 是全球最具影响力的 AI 研究员之一，他记录了 LLM 在编写代码时最常犯的错误：过度设计、忽略现有模式、添加不必要的依赖项。他只是花了一个晚上进行了正确的设置，现在他的系统在替他工作，而他在享受生活。数周的自定义智能体系统搭建工作、独立的规划/审查/安全工具，以及每月 200-500 美元的专业 AI 服务费用。但会话效果的差异是立竿见影的。

2026-04-14 07:17:49 87

转载 Cursor如何把一个通用模型，训成顶级编程 Agent

本文将根据其技术报告，深入浅出地解析核心要点：这些模型是如何训练的、强化学习（RL）框架是如何设计的，以及 “CursorBench” 基准测试到底在衡量什么。异步 RL 的目标是让所有组件互不等待，最大化吞吐量。另一个任务里，智能体需要分析 954 个 JSON 响应文件，找出一个很隐蔽的流式处理 Bug，还要为它写一个启发式检测器，并反复调参，避免过度计数。CursorBench 是一套动态演进的基准测试，随着模型变聪明，会发布新的迭代版本（v0, v1, v2, v3），以走在公开榜单”饱和”之前。

2026-03-31 12:11:20 148 1

转载长时自主Agent，先解决这8个Harness核心问题

如果你发现，agent 没有把仓库维护在一个好状态里，那你就可以在每次 session 结束时，再拉起一些 agent ，去分析本次改动的 blast radius，并确保这次改动触及到的所有内容都没有自相矛盾，也足够干净。最后，也是最重要的一点，你要把 agent 编排层接收和产出的所有内容都做详细遥测，包括 prompts、traces、outcomes，然后设计 rubric 去评估你的 Harness 质量。然后更重要的是，你要验证的，必须是你真正想上线到生产环境里的那种精确行为。

2026-03-30 07:53:52 75

转载 Claude Code 重度用户的 8 个生产力秘籍

Claude 的 research agent 启动了，交叉参照 last30days 数据，写出了一份结构化的 plan.md：园区顺序（AK -> HS -> Epcot -> MK）、精确的 Lightning Lane 预订策略、4 月 13/14/15 日早上 7:00 的三个闹钟提醒、哪些项目需要 Single Pass（14-22 美元）vs Multi Pass、孩子的身高要求。当你运行 /ce:plan 时，底层发生的事情是这样的：它会并行启动多个 research agent。

2026-03-24 08:51:35 150

转载别再幻想用 Spec 替代写代码

在那个帝国，制图学达到了如此完美的程度，以至于一个省的地图占据了整座城市，帝国的地图占据了整个省。生成的代码不仅有好几个 bug（我不得不反复提示 Claude 去修复，修复记录都在 commit 历史里），而且即使在表面上"成功"的时候（没有报错），codex Agent 也只是在那里空转，对下面这个简单的 Linear 工单毫无进展：。我们之所以在动手编码前先写 Spec，是为了强迫自己用审慎和批判的眼光审视项目，因为一旦开始写代码，人就会切换到"执行模式"，被行动的惯性驱动着往前冲。

2026-03-23 08:37:20 54

转载实现复利工程：我是如何通过龙虾构建递归进化的 Agent 闭环

导读：本文详细描述了 Agent Orchestrator（AO）开源 18 天后的发展历程：一个由 AI agent 构建的 TypeScript 系统，已获 3800+ GitHub Star，通过自改进循环（如 agent 修复 bug 并生成 PR）实现迭代，作者分享了与 OpenClaw 的集成，使 agent 管理从桌面仪表板转向 Telegram 实时交互。重连，失败，重连，失败。所以我杀掉了 ao-9，创建了 ao-8 来接管，意识到这更糟了，因为现在我为了一个 PR 弄了两个会话。

2026-03-13 11:54:49 51

转载理解 Prompt Cache 与 Agent 的“上下文税”：AI时代架构纪律

它是计算密集型（Compute-bound）的，意味着它在你的上下文中的每个 token 上运行稠密的矩阵乘法。导读：本文通过Claude Code案例，解释了 AI agent 中的提示词缓存机制，实现 92% 缓存命中率，显著降低重复计算的“上下文税”，节省高达81%的成本。它是内存受限型（Memory-bound）的，因为模型大部分时间花在读取之前计算的状态，而不是进行沉重的计算。这是整个会话中最昂贵的时刻，每个 token 都是新的，但你只需支付一次。如果你在开发自己的智能体，同样的规则也适用。

2026-03-12 10:46:46 171

原创 8天，4万行代码：一个递归进化的agent编排器是如何“手搓”出自己的?

他主导开发了开源的 AI 智能体编排系统，用它在 8 天内由智能体自身构建出 4 万行 TypeScript 代码，实现 20 倍人类效率跃升，专注多智能体并行、自愈与自改进工程。但编排器智能体已经在工作了——它审视了你所有的工作流并告诉你：“这个 PR 阻塞了另外三个任务，这个 CI 失败是由于测试不稳定导致的，而这条审查意见才是真正重要的。我从“写代码的人”变成了“给写代码的机器当保姆的人”。智能体立即修复了约 68% 的问题，解释了约 7% 的设计意图，并将约 4% 的问题推迟到未来的 PR。

2026-03-11 08:39:37 381

原创如何手搓一个 CLI：只需 80 行代码，彻底看清 AI 的底层逻辑

你会发现我已经把我的偏好写进去了，因为我受不了 Claude 默认那种客套过头的性格，所以我把它改成了：“你是一个简洁的 CLI 助手。：文章介绍了通过构建简单AI命令行工具（CLI）来学习 AI 底层机制的教程，强调“做中学”比阅读更有效，并分享了一个仅80行代码的GitHub仓库，无需框架，直接使用 Anthropic 的 Claude API。因为我相信，随着我们进入一个“智能体（Agent）多于人类”的软件交互时代，CLI 将变得越来越重要，尤其是在对速度和性能有极致要求的情况下。

2026-03-09 08:22:59 284

转载从任务到系统：深度拆解2027年百万年薪的6项AI核心技能

到那时，已经集成 AI 工作流的人将拥有 18 个月的优化经验，而刚起步的人只能在摸索基础的同时，与拥有多年经验的老手竞争。在这个窗口期内，技能学习的门槛相对较低，竞争不激烈，资源充足且没有人设置准入障碍。大多数专业人士每次使用 AI 时，都要反复解释工作背景：“我在一家向财务团队销售产品的 B2B 公司工作，我们的产品是 X，客户痛点是 Y，我们的语气是 Z……2027 年，20 万美金年薪与 8 万美金年薪的区别，不在于天赋或学历，而在于你是在窗口期内掌握了这些技能，还是在窗口关闭后才开始追赶。

2026-03-07 17:11:57 40

原创 Context 不是免费的：解析长文档 agent 的性能天花板与架构优化

如果你的智能体正在填写审查表格，一个能通过关键词或章节标题搜索并返回相关块的工具，远比一个将整个文件甩进对话里的工具更有用。文章讨论构建真实世界AI智能体时常见问题：处理长文档的JSON解析输出（如坐标、置信度分数）占用整个上下文窗口，导致智能体无法有效工作。我在很多场景中都见过这种情况：审查合同的法律 AI 智能体、处理理赔的保险智能体，有时是处理 10-K 表格提取数据的金融智能体。我们已经看到客户通过弥合这一差距，显著提升了准确率和性能，从而为他们的终端用户带来了更好的结果和性能更佳的智能体。

2026-03-06 14:06:58 315

原创别再死磕模型调优了！Cursor和Manus告诉我们: 外壳(Harness)才是真正的护城河

正如 Dex Horthy（“12 Factor Agents”方法论的提出者）所说，阈值在于模型输入容量的 40%：一旦超过这个比例，你就会进入他所说的“愚蠢区（dumb zone）”——信噪比下降，注意力破碎，Agent 开始犯一些看起来像推理失败的错误，但这实际上只是因为外壳设计太烂而导致的信息过载。这就是为什么外壳至关重要：渐进式披露保持了输入的精简（减少了曲线失真），并将刚检索到的新信息放置在末尾（高注意力区域）。他们的原话是：“文件是一个简单而强大的原语，比再增加一个抽象层更安全。

2026-03-02 16:20:50 1627

原创像智能体一样观察：Anthropic 团队谈 Claude Code 工具设计的演进与艺术

Claude 通过“工具调用（Tool Calling）”来采取行动，但在 Claude API 中，构建工具的方式多种多样，包括 Bash 脚本、预设技能（Skills）以及最近推出的代码执行功能（关于 API 上的程序化工具调用，可以参阅 @RLanceMartin 的新文章）我们可以把这些信息全塞进系统提示词（System Prompt）里，但考虑到用户很少问这些，这会造成“上下文腐化（Context Rot）”，干扰 Claude Code 的核心任务：写代码。为模型设计工具既是科学，更是艺术。

2026-02-28 11:07:49 365

原创我们如何构建安全可扩展的智能体沙箱基础架构

我们可以在开发笔记本上运行完全相同的智能体，并发启动数百个进行评估，最后部署到生产环境的 Unikraft。当一个智能体可以执行任意代码时，它理论上可以访问机器上的任何内容：环境变量、API 密钥、数据库凭据、内部服务。对可以执行代码的智能体进行沙箱化有两种方法：隔离工具（将代码执行放在沙箱中，智能体保留在后端）或隔离智能体（将整个智能体放入沙箱，通过控制面与外界通信）。相同的接口，相同的行为，不同的后端。运行纯浏览器智能体，其优势在于每次调用都是隔离的、扩展是即时的，且无需担心密钥安全。

2026-02-27 16:05:21 563

转载关于软件开发未来的三点思考

我认为，达到 99.99(...)% 的代码由 AI 编写所花的时间会比预想的短，但达到 100% 的时间会比预想的长。基于供需关系，这里的价值将非常巨大：能胜任这种干预的人越来越少，而且由于“认知债”，具备这种能力的人也会越来越稀缺。当智能体编写的软件成为我们日常生活基石的一部分时，其中的 Bug 或漏洞所带来的后果将严重得多。随着人类编写的代码越来越少，我们对底层系统和算法的思想模型（Mental Model）会逐渐衰退，甚至从一开始就无法建立。这种趋势表明：AI 能力的增强意味着人类参与度的降低。

2026-02-23 16:14:44 45

原创代码不再是真相：AI Agent 时代从 Code 到 Traces 的范式转移

但当你调试智能体为什么做出错误决策时，你需要分享一个轨迹，在特定的决策点添加评论，讨论为什么它选择了这条路径。在传统软件中，你通过阅读代码来理解应用的功能，决策逻辑存在于你的代码库中。在 AI 智能体（AI Agents）中，代码只是脚手架，实际的决策发生在运行时的模型中。你只能在轨迹中看到这一点：相同的工具调用、相同的参数、相同的失败，不断重复。智能体是否做出了好的决策、推理是否有效，这些逻辑存在于模型中，而不是你的代码库中。它是确定性的，相同的输入，走相同的代码路径，得到相同的输出。

2026-02-22 10:58:56 388

原创 Claude Code 作者：编程问题在大多数用例已解决

与此同时，他仍然是 Anthropic 最多产的工程师之一，在领导团队的同时，每天提交 10 到 30 个拉取请求（PR）。正如 Boris 指出的那样，“在 Meta 时，有数百名工程师致力于生产力工具，我们每年只能看到几个百分点的增长。Boris 的关键原则之一是为未来的 AI 能力设计产品，而不是当前的能力。不那么智能的模型通常在纠正错误上消耗的 Token 比更智能的模型第一次就做对所花费的还要多。最能获得回报的人不仅仅是 AI 原生的——他们将是能够思考他们正在解决的更广泛问题的好奇通才。

2026-02-21 10:33:11 982

转载如何让 AI 替你干活？OpenClaw 98 个实战案例全公开

— 最全面的单人配置：日历时间块、任务重要性/紧急度评分、基于会议记录的每周回顾、每日晨报（天气 + 健康数据 + 会议 + 热搜话题 + 阅读清单 + 书中引言）、孩子考试提醒、会前调研简报、后台子代理调研商业创意、自主日历冲突管理、发票生成。成本：$400/月。—— @rahulsingh07：主代理 "Supaclaw" 获取了 API 文档，从零开始构建了一个完整的社交媒体管理智能体，包含拟稿、排期和内容日历。—— @JackCulpan："FlightClaw：告诉你的机器人关注某条航线。

2026-02-15 19:57:15 1591

原创从“编写代码”到“设计智能体环境”：软件工程的范式大迁移 [特殊字符]

在这一代模型之前，智能体无法在长时间跨度内处理复杂工作（上下文会腐化/腐烂），无法在无人监管的情况下端到端地交付大功能。在任何人评审之前，智能体需要运行它构建的东西。当模型（如 GPT 5.2/Opus 4.5）的上下文保持能力和逻辑一致性跨越某个阈值后，维护一套智能体自动化系统的成本将低于雇佣、沟通和管理人类开发者的成本。通常是在团队睡觉的时候。为了降低智能体的理解成本，开发者主动选择了成熟、稳定、甚至有些“无聊”的工具链（如 Go, Rust, TypeScript），避免使用过于前卫或不稳定的库。

2026-02-14 09:16:40 358

原创 Agent 步入“系统级”时代：OpenAI 详解 Skills 与 Shell 方案，终结提示词工程

当“提示词乱炖”被标准化的技能包取代，当内存管理像垃圾回收一样成为底层原语，开发者终于可以从繁琐的逻辑粘合中抽身，去构建真正具有长周期执行能力的“数字雇员”。虽然 OpenClaw 的安全性饱受诟病（被称为“带枪的管家”），但其活跃的 Skills 社区证明了：当 AI 能够直接触碰真实物理机器时，它爆发出的生产力是托管平台难以企及的。这一模式是真实工作智能体的基础，因为它创建了一个清晰的审查边界：你的应用可以向用户展示该artifact制品，记录日志，进行差异对比，或将其传入后续步骤。

2026-02-13 11:51:21 625

空空如也

空空如也