自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1167)
  • 收藏
  • 关注

转载 从Prompt、Context到Harness,工程的三次进化与终局之战

同时,强制要求散落各处的决策记录(Slack、邮件、文档)全部迁移至代码仓库,确保 Agent 的唯一信息来源是可信的、版本受控的仓库。更坑爹的是,研究表明,当上下文过长时,模型会出现"中间遗忘(Lost in the Middle)"现象:它对开头和结尾的内容记忆较好,对中间大段内容的关注度大幅下降。这篇文章,我想带你完整走一遍这三次进化的逻辑:它们分别解决了什么问题,它们之间是什么关系,它们的边界在哪里,以及:当三者融合,AI 工程师的终极形态究竟是什么?大语言模型的本质,就是这位金鱼助理。

2026-05-27 13:42:43 30

转载 我用 Claude 搭了个自动新闻简报,30天后比我刷了一年的信息还有用

它会读取你配置的所有信息源,行业新闻、竞品网站、你所在领域的学术论文、特定 newsletter、发研究内容的 YouTube 频道、播客文字稿、你关注的 GitHub 仓库、你细分领域的 Reddit 社区。每天早上,在你打开任何东西之前,Claude Agent 已经把你工作相关的信息源全读完了,无关内容滤掉,值得知道的新进展综合好,一份结构清晰的 5 分钟简报放进你的 Obsidian vault。它告诉 Claude 你做什么、关心什么、已经知道什么,以及什么样的信息对你来说是真正可执行的。

2026-05-26 11:24:28 76

转载 我用 7 天把 AI Agent 的 Token 账单砍掉 87%(附代码)

导读:本文是一篇详细的 AI agent 成本优化指南,指出 2026 年 token 费用失控主要源于工程问题而非模型选择,提供7天实战计划,通过审计花费、开启提示缓存、压缩上下文、按任务路由模型等措施,可将月账单从 4800 美元降至 620 美元,节省 87%。作者推荐先用 Helicone、Langfuse 或 Portkey 等工具建立可观测性,找出高耗函数和异常,然后实施提示缓存(Anthropic 可达 90% 折扣)、上下文预算控制和重试循环限制,强调“怀疑调试”纪律以避免优化反弹。这个季度

2026-05-25 11:18:49 62

转载 QQ音乐Harness Engineering实践

当 AI 开始快速生成大量代码,真正的瓶颈就不再是"写不出来",而是"看不完、想不清、管不住"。当 AI 开始快速生成大量代码,真正的瓶颈就不再是"写不出来",而是"看不完、想不清、管不住"。在对话式编码阶段,一种典型的工作模式逐渐流行:开发者把需求丢给 AI,扫一眼输出"看起来对"就直接采纳,不审 diff、不追问逻辑、不验证边界。以音乐商业化业务为例,一个需求可能从 TAPD 单开始,经过需求评审、技术方案、服务影响面分析、IDL 契约变更、业务代码实现、测试验证、CR、灰度上线,最后才进入稳定运行。

2026-05-22 12:21:07 45

转载 Hermes Agent 到底能干什么?16 个分类、276 个用例的完整答案

导读:大多数人还在把 AI 当成聊天机器人,但部分开发者已经在做完全不同的事:让 AI 自主写代码、运营业务、管理研究,甚至 24/7 在线协调其他 Agent。来自 GitHub、Reddit、X、YouTube、Hacker News、博客、Product Hunt、LinkedIn 和生产部署的 16 个类别、276 个真实 Hermes Agent 用例。“9 个 Hermes Agent,两个相互竞争的 AI 公司,通过 GitHub star 较量。坦白说,这看起来已经不再像是”AI 工具”。

2026-05-21 12:29:07 93

转载 Evals 到底在评什么?一文拆解 AI 评估的三种方法

成熟团队不会把 evals 当成上线前的一次性考试,而是把它放进完整循环里:从生产 traces 中发现失败模式,沉淀数据集和黄金样例,用 evals 比较 prompt、模型和系统设计改动,再通过 CI 门禁、灰度发布、线上监控和漂移检测持续回流。无参考答案评估器、用户反馈信号,以及其他适合生产环境的安全检查,都可以应用到实时流量上,用来确认生产环境中的质量是否与部署前看到的一致。无参考答案评估器的优势在于,它们可以应用到未见过的生产数据上,而基于参考答案的评估器始终需要一个预先定义好的参考回答。

2026-05-20 11:50:35 49

转载 我把 Karpathy 的 AutoResearch 搬到了软件开发领域,效果炸了

不同模型有不同的盲区和强项,交叉审核能发现单 Agent 发现不了的问题。Karpathy 和达尔文.skill 用 git revert 做硬性保护(退化就回滚),本项目用多 Agent 交叉审核做软性保护(审核反馈驱动改进,并没有做回退机制,原因在于ClaudeCode/Codex自己足够智能决定回退还是改进上一轮的变动)。解决了人的 chat 交互问题,但本质是单个 Agent 的自我循环——自己写、自己测、自己改,没有外部审核视角,质量全靠测试 backpressure 和 prompt 工夫。

2026-05-18 09:50:29 104

转载 用 Claude 实现多智能体系统:一个人如何跑起 4 个 AI 专家团队

4个智能体分为研究、生产、质量、分发,加上协调器管理流程,提供完整文件夹结构、系统提示模板和 Claude Code 设置步骤,实现清晰的角色分工与任务交接。没有质量智能体时,生产智能体输出的每篇内容都会直接进入分发,不管质量如何。当你构建四个专门化智能体,让它们有清晰角色、明确交接,并由一个主编排器协调,你会在每个环节得到出色输出,因为每个智能体都只把一件事做好。生产智能体无法补上研究智能体没有发现的洞察。四个智能体代表了知识工作的最小可行团队结构,覆盖完整循环:输入与研究、生产、质量控制、输出与分发。

2026-05-14 12:20:55 54

转载 别再死磕提示词了,真正拉开差距的是上下文工程

如果一个人能走进一家公司,审计它的 AI 工作流,设计上下文架构,实施记忆系统,连接 MCP 工具,并交付生产级 AI 系统,那么公司现在愿意为每个项目支付 5,000 到 25,000 美元。企业需要的 AI 系统,必须理解它们的具体领域,遵守它们的具体规则,访问它们的具体数据,并产出符合它们具体标准的结果。那些真正能工作的 AI 系统,能记住你的偏好,访问你的数据,稳定遵守你的规则,并且日复一日地产出可靠结果。拥有设计良好的记忆系统的 AI,只会记住你希望它记住的内容,并随着你的最新思考不断更新。

2026-05-12 10:35:01 28

转载 Claude写代码错误率从41%降到11%:Karpathy的4条规则为什么不够

Claude 写了两者兼有的新代码。导读:本文详细扩展了 Claude AI 编码的 CLAUDE.md 模板,从 Karpathy 2026 年 1 月原 4 条规则增至 12 条,针对 5 月出现的 agent 冲突、多步工作流和 token 预算等问题提供具体修复。Karpathy 的规则瞄准的是 Claude 正在写代码的那个时刻。加上下面要讲的 8 条规则,你覆盖的就不只是 Karpathy 在 2026 年 1 月抱怨的写代码问题,还包括 2026 年 5 月才出现的 agent 编排问题。

2026-05-11 11:28:18 647 1

转载 Ralph Loop 不够用:长时间 Agent 还缺这 3 件事

作者提出了一种优化工作流:前期通过 “interview/grill-me” 阶段大幅降低任务模糊性,将目标拆解为里程碑,再用主编排器+ sub-agent(实现者+评审者)模式,并维护 GOAL.md、STANDARDS.md 等持久化记忆文件实现跨上下文连续性。导读:Jarrod Watts 作为 Monad 首席 AI 工程师,详细分析了 Codex /goal 长运行 agent 机制,发现其本质是重复提示循环加 SQLite 跟踪,但易导致歧义随迭代 compounding,影响最终输出质量。

2026-05-08 12:24:09 69

转载 我给Hermes配了4个Agent,真正有用的是这些事

我看着 X 时间线上大家聊得热火朝天,又是各种新东西,又是 Mac Mini 狂热潮,自己坐在那里一头雾水,但我确实很想参与进去。我用这个 Agent 在网上搜索相关研究和新闻,也会让它处理一些很简单的事情,比如“唉,今晚该做什么晚饭”,因为我吃的每一餐都要自己做。我会说,这个 Agent 反而最让我“惊讶”,因为我是在一个很小的本地模型上跑它。写到这里时,我觉得接下来还要让它提醒我检查坐姿(过去六个月我一直在努力修复多年伏案工作造成的问题),以及提醒我起来活动。我会让它做苦活,然后由我验证,再继续推进。

2026-05-06 09:52:17 199

转载 Agent架构关键变化:Harness正在成为新后端

iii 提供浏览器 SDK,所以某个人笔记本上的一个 tab 可以注册 functions,参与实时发现,调用后端 functions,也可以被后端 functions 调用。iii 下的是另一个赌注:正确的 primitives,也就是 worker、trigger、function,足够小,也足够通用,所以“什么能参与这个系统?添加一个 worker。它可以是对 function 的直接调用,可以是一个 HTTP endpoint,可以是 cron 调度、队列订阅、状态变化、流事件,或者任何其他东西。

2026-04-30 08:33:41 71

转载 明星开源项目,为什么开始离开 GitHub?

我对 GitHub 的爱超过了一个人对一件东西应有的爱,所以我对它生气。你知道吗,我开始做 Vagrant,也就是我第一个成功的开源项目,很大程度上是因为我希望它能帮我得到一份 GitHub 的工作?在我第一次公开演讲 Vagrant 时,我才 20 岁,我开玩笑说:“如果它够好,也许 GitHub 会雇我!几个月来,我们一直在讨论并制定离开 GitHub 的计划,而这篇博客文章是一周多以前写好的。Ghostty 是我、我们的维护者以及我们的开源社区受影响最大的地方,所以这是这次变更的重点。

2026-04-29 07:47:40 105

转载 300万人在存的Claude提示词

导读:- 本文由 AI 研究者 @eng_khairallah1 发布,他测试 500 多个提示词后精选出40个结构化模板,覆盖写作、策略分析、技术开发、生产力、数据解读和沟通等领域,可在Claude、ChatGPT和Gemini上稳定产出专家级输出。我需要与 [谁,包括角色、关系] 就 [主题] 进行一次困难对话。我即将与 [谁] 就 [什么] 进行谈判。帮我为 [团队/个人/公司] 创建 [时间段] 的 OKR。我需要给 [谁,包括角色、关系] 关于 [什么,具体行为或工作] 的反馈。

2026-04-28 08:52:06 55

转载 别再把上下文当聊天记录

当一个文件在 agent 的上下文中处于“打开”状态时,它可见的内容会被截断到一个按文件计算的字符上限,这个上限会随模型上下文窗口分为五档:8K 上下文对应 5,000 个字符,32K 对应 15,000,128K 对应 25,000,200K+ 对应 40,000。可同时打开的文件数量也会扩展,小模型为 3 个,超大模型最高 15 个,兜底默认值为 5。随着会话变长,文件读取膨胀,子智能体调用增多,工具输出堆积,harness 必须决定哪些内容留在工作集里,哪些被压缩,哪些之后再检索。

2026-04-27 07:55:21 43

转载 Claude 发布官方报告,承认存在 3 处质量退化问题

3 月 26 日,我们上线了一个改动:对于闲置超过 1 小时的会话,清除 Claude 较早的思考内容,以降低用户重新进入会话时的延迟。作为这次调查的一部分,我们又做了更多 ablation,也就是逐行移除 system prompt 中的指令,来理解每一行的具体影响,并使用了一组覆盖面更广的评测。发布后不久,我们收到用户反馈,表示 Claude Opus 4.6 在 high effort 模式下偶尔会思考过久,导致 UI 看起来像是冻结,并给这些用户带来不成比例的延迟和 token 消耗。

2026-04-24 09:25:13 130

转载 刚刚Opus 4.7发布,相比4.6核心变化,与Claude Code搭配最佳实践

中提到过,两项变化会影响 token 用量,一是更新了 tokenizer,二是模型在更高 effort 等级下,尤其是在更长会话的后续轮次中,更倾向于进行更多思考。Opus 4.7 的 token 用量和行为表现,会因为你的部署方式不同而变化,尤其取决于你是在运行单轮输入、更加自主且异步的编码智能体,还是多轮交互、同步配合的编码智能体。与 Opus 4.6 相比,它更擅长处理模糊问题,在找 bug 和做代码审查方面强得多,能够更稳定地跨会话保持上下文,也能在更少指令的情况下推理那些定义不够清晰的任务。

2026-04-17 07:50:23 202

转载 使用Claude Code:session管理与1M上下文

这就像是“未来的 Claude”给“过去的 Claude”留的小便条,告诉它哪里踩坑了。:你亲自动手写下重点(“我们正在重构 auth 中间件,限制条件是 X,相关文件是 A 和 B,已排除方案 Y”),然后干干净净地开始。假设你刚刚让 Claude 完成了一项任务,现在你的上下文中已经包含了一些信息(工具调用、输出、你的指令)。有了 1M 上下文,你有更充裕的时间根据接下来的计划,主动运行带描述的。当你接近窗口上限时,你需要将当前任务总结成一段较短的描述,并在新的上下文窗口中继续工作,我们称之为。

2026-04-16 07:59:55 436

转载 很多企业做完 AI PoC,为什么还是上不了生产

大量公开内容还停留在概念讨论、产品展示和趋势判断层面,可企业真正缺的是一线项目里那些不太好写进宣传材料的经验,比如架构为什么这么选,系统为什么会失稳,成本为什么压不下来,哪些路径在真实生产中走得通,哪些看起来很先进但暂时不适合自己。企业需要的是一套更成熟的智能体原生架构,让决策路径更清晰,执行过程更可控,系统能够持续迭代,而不是靠人肉兜底。前期投入不少,模型效果也能展示,可一旦进入真实业务,问题很快就会换一套:算力成本压不住,延迟和稳定性波动明显,智能体在复杂流程里不够可控,安全、评测、协同体系也跟不上。

2026-04-15 12:02:58 56

转载 一名谷歌工程师如何利用 Claude Code 简化 80% 工作

现在他每天只需工作 2-3 小时,而不是 8 小时,其余时间都在休息,而系统自动运行并为他赚取了 28,000 美元的被动收入。Andrej Karpathy 是全球最具影响力的 AI 研究员之一,他记录了 LLM 在编写代码时最常犯的错误:过度设计、忽略现有模式、添加不必要的依赖项。他只是花了一个晚上进行了正确的设置,现在他的系统在替他工作,而他在享受生活。数周的自定义智能体系统搭建工作、独立的规划/审查/安全工具,以及每月 200-500 美元的专业 AI 服务费用。但会话效果的差异是立竿见影的。

2026-04-14 07:17:49 87

转载 Cursor如何把一个通用模型,训成顶级编程 Agent

本文将根据其技术报告,深入浅出地解析核心要点:这些模型是如何训练的、强化学习(RL)框架是如何设计的,以及 “CursorBench” 基准测试到底在衡量什么。异步 RL 的目标是让所有组件互不等待,最大化吞吐量。另一个任务里,智能体需要分析 954 个 JSON 响应文件,找出一个很隐蔽的流式处理 Bug,还要为它写一个启发式检测器,并反复调参,避免过度计数。CursorBench 是一套动态演进的基准测试,随着模型变聪明,会发布新的迭代版本(v0, v1, v2, v3),以走在公开榜单”饱和”之前。

2026-03-31 12:11:20 148 1

转载 长时自主Agent,先解决这8个Harness核心问题

如果你发现,agent 没有把仓库维护在一个好状态里,那你就可以在每次 session 结束时,再拉起一些 agent ,去分析本次改动的 blast radius,并确保这次改动触及到的所有内容都没有自相矛盾,也足够干净。最后,也是最重要的一点,你要把 agent 编排层接收和产出的所有内容都做详细遥测,包括 prompts、traces、outcomes,然后设计 rubric 去评估你的 Harness 质量。然后更重要的是,你要验证的,必须是你真正想上线到生产环境里的那种精确行为。

2026-03-30 07:53:52 75

转载 Claude Code 重度用户的 8 个生产力秘籍

Claude 的 research agent 启动了,交叉参照 last30days 数据,写出了一份结构化的 plan.md:园区顺序(AK -> HS -> Epcot -> MK)、精确的 Lightning Lane 预订策略、4 月 13/14/15 日早上 7:00 的三个闹钟提醒、哪些项目需要 Single Pass(14-22 美元)vs Multi Pass、孩子的身高要求。当你运行 /ce:plan 时,底层发生的事情是这样的:它会并行启动多个 research agent。

2026-03-24 08:51:35 150

转载 别再幻想用 Spec 替代写代码

在那个帝国,制图学达到了如此完美的程度,以至于一个省的地图占据了整座城市,帝国的地图占据了整个省。生成的代码不仅有好几个 bug(我不得不反复提示 Claude 去修复,修复记录都在 commit 历史里),而且即使在表面上"成功"的时候(没有报错),codex Agent 也只是在那里空转,对下面这个简单的 Linear 工单毫无进展:。我们之所以在动手编码前先写 Spec,是为了强迫自己用审慎和批判的眼光审视项目,因为一旦开始写代码,人就会切换到"执行模式",被行动的惯性驱动着往前冲。

2026-03-23 08:37:20 54

转载 实现复利工程:我是如何通过龙虾构建递归进化的 Agent 闭环

导读:本文详细描述了 Agent Orchestrator(AO)开源 18 天后的发展历程:一个由 AI agent 构建的 TypeScript 系统,已获 3800+ GitHub Star,通过自改进循环(如 agent 修复 bug 并生成 PR)实现迭代,作者分享了与 OpenClaw 的集成,使 agent 管理从桌面仪表板转向 Telegram 实时交互。重连,失败,重连,失败。所以我杀掉了 ao-9,创建了 ao-8 来接管,意识到这更糟了,因为现在我为了一个 PR 弄了两个会话。

2026-03-13 11:54:49 51

转载 理解 Prompt Cache 与 Agent 的“上下文税”:AI时代架构纪律

它是计算密集型(Compute-bound)的,意味着它在你的上下文中的每个 token 上运行稠密的矩阵乘法。导读:本文通过Claude Code案例,解释了 AI agent 中的提示词缓存机制,实现 92% 缓存命中率,显著降低重复计算的“上下文税”,节省高达81%的成本。它是内存受限型(Memory-bound)的,因为模型大部分时间花在读取之前计算的状态,而不是进行沉重的计算。这是整个会话中最昂贵的时刻,每个 token 都是新的,但你只需支付一次。如果你在开发自己的智能体,同样的规则也适用。

2026-03-12 10:46:46 171

原创 8天,4万行代码:一个递归进化的agent编排器是如何“手搓”出自己的?

他主导开发了开源的 AI 智能体编排系统,用它在 8 天内由智能体自身构建出 4 万行 TypeScript 代码,实现 20 倍人类效率跃升,专注多智能体并行、自愈与自改进工程。但编排器智能体已经在工作了——它审视了你所有的工作流并告诉你:“这个 PR 阻塞了另外三个任务,这个 CI 失败是由于测试不稳定导致的,而这条审查意见才是真正重要的。我从“写代码的人”变成了“给写代码的机器当保姆的人”。智能体立即修复了约 68% 的问题,解释了约 7% 的设计意图,并将约 4% 的问题推迟到未来的 PR。

2026-03-11 08:39:37 381

原创 如何手搓一个 CLI:只需 80 行代码,彻底看清 AI 的底层逻辑

你会发现我已经把我的偏好写进去了,因为我受不了 Claude 默认那种客套过头的性格,所以我把它改成了:“你是一个简洁的 CLI 助手。:文章介绍了通过构建简单AI命令行工具(CLI)来学习 AI 底层机制的教程,强调“做中学”比阅读更有效,并分享了一个仅80行代码的GitHub仓库,无需框架,直接使用 Anthropic 的 Claude API。因为我相信,随着我们进入一个“智能体(Agent)多于人类”的软件交互时代,CLI 将变得越来越重要,尤其是在对速度和性能有极致要求的情况下。

2026-03-09 08:22:59 284

转载 从任务到系统:深度拆解2027年百万年薪的6项AI核心技能

到那时,已经集成 AI 工作流的人将拥有 18 个月的优化经验,而刚起步的人只能在摸索基础的同时,与拥有多年经验的老手竞争。在这个窗口期内,技能学习的门槛相对较低,竞争不激烈,资源充足且没有人设置准入障碍。大多数专业人士每次使用 AI 时,都要反复解释工作背景:“我在一家向财务团队销售产品的 B2B 公司工作,我们的产品是 X,客户痛点是 Y,我们的语气是 Z……2027 年,20 万美金年薪与 8 万美金年薪的区别,不在于天赋或学历,而在于你是在窗口期内掌握了这些技能,还是在窗口关闭后才开始追赶。

2026-03-07 17:11:57 40

原创 Context 不是免费的:解析长文档 agent 的性能天花板与架构优化

如果你的智能体正在填写审查表格,一个能通过关键词或章节标题搜索并返回相关块的工具,远比一个将整个文件甩进对话里的工具更有用。文章讨论构建真实世界AI智能体时常见问题:处理长文档的JSON解析输出(如坐标、置信度分数)占用整个上下文窗口,导致智能体无法有效工作。我在很多场景中都见过这种情况:审查合同的法律 AI 智能体、处理理赔的保险智能体,有时是处理 10-K 表格提取数据的金融智能体。我们已经看到客户通过弥合这一差距,显著提升了准确率和性能,从而为他们的终端用户带来了更好的结果和性能更佳的智能体。

2026-03-06 14:06:58 315

原创 别再死磕模型调优了!Cursor和Manus告诉我们: 外壳(Harness)才是真正的护城河

正如 Dex Horthy(“12 Factor Agents”方法论的提出者)所说,阈值在于模型输入容量的 40%:一旦超过这个比例,你就会进入他所说的“愚蠢区(dumb zone)”——信噪比下降,注意力破碎,Agent 开始犯一些看起来像推理失败的错误,但这实际上只是因为外壳设计太烂而导致的信息过载。这就是为什么外壳至关重要:渐进式披露保持了输入的精简(减少了曲线失真),并将刚检索到的新信息放置在末尾(高注意力区域)。他们的原话是:“文件是一个简单而强大的原语,比再增加一个抽象层更安全。

2026-03-02 16:20:50 1627

原创 像智能体一样观察:Anthropic 团队谈 Claude Code 工具设计的演进与艺术

Claude 通过“工具调用(Tool Calling)”来采取行动,但在 Claude API 中,构建工具的方式多种多样,包括 Bash 脚本、预设技能(Skills)以及最近推出的代码执行功能(关于 API 上的程序化工具调用,可以参阅 @RLanceMartin 的新文章)我们可以把这些信息全塞进系统提示词(System Prompt)里,但考虑到用户很少问这些,这会造成“上下文腐化(Context Rot)”,干扰 Claude Code 的核心任务:写代码。为模型设计工具既是科学,更是艺术。

2026-02-28 11:07:49 365

原创 我们如何构建安全可扩展的智能体沙箱基础架构

我们可以在开发笔记本上运行完全相同的智能体,并发启动数百个进行评估,最后部署到生产环境的 Unikraft。当一个智能体可以执行任意代码时,它理论上可以访问机器上的任何内容:环境变量、API 密钥、数据库凭据、内部服务。对可以执行代码的智能体进行沙箱化有两种方法:隔离工具(将代码执行放在沙箱中,智能体保留在后端)或隔离智能体(将整个智能体放入沙箱,通过控制面与外界通信)。相同的接口,相同的行为,不同的后端。运行纯浏览器智能体,其优势在于每次调用都是隔离的、扩展是即时的,且无需担心密钥安全。

2026-02-27 16:05:21 563

转载 关于软件开发未来的三点思考

我认为,达到 99.99(...)% 的代码由 AI 编写所花的时间会比预想的短,但达到 100% 的时间会比预想的长。基于供需关系,这里的价值将非常巨大:能胜任这种干预的人越来越少,而且由于“认知债”,具备这种能力的人也会越来越稀缺。当智能体编写的软件成为我们日常生活基石的一部分时,其中的 Bug 或漏洞所带来的后果将严重得多。随着人类编写的代码越来越少,我们对底层系统和算法的思想模型(Mental Model)会逐渐衰退,甚至从一开始就无法建立。这种趋势表明:AI 能力的增强意味着人类参与度的降低。

2026-02-23 16:14:44 45

原创 代码不再是真相:AI Agent 时代从 Code 到 Traces 的范式转移

但当你调试智能体为什么做出错误决策时,你需要分享一个轨迹,在特定的决策点添加评论,讨论为什么它选择了这条路径。在传统软件中,你通过阅读代码来理解应用的功能,决策逻辑存在于你的代码库中。在 AI 智能体(AI Agents)中,代码只是脚手架,实际的决策发生在运行时的模型中。你只能在轨迹中看到这一点:相同的工具调用、相同的参数、相同的失败,不断重复。智能体是否做出了好的决策、推理是否有效,这些逻辑存在于模型中,而不是你的代码库中。它是确定性的,相同的输入,走相同的代码路径,得到相同的输出。

2026-02-22 10:58:56 388

原创 Claude Code 作者:编程问题在大多数用例已解决

与此同时,他仍然是 Anthropic 最多产的工程师之一,在领导团队的同时,每天提交 10 到 30 个拉取请求(PR)。正如 Boris 指出的那样,“在 Meta 时,有数百名工程师致力于生产力工具,我们每年只能看到几个百分点的增长。Boris 的关键原则之一是为未来的 AI 能力设计产品,而不是当前的能力。不那么智能的模型通常在纠正错误上消耗的 Token 比更智能的模型第一次就做对所花费的还要多。最能获得回报的人不仅仅是 AI 原生的——他们将是能够思考他们正在解决的更广泛问题的好奇通才。

2026-02-21 10:33:11 982

转载 如何让 AI 替你干活?OpenClaw 98 个实战案例全公开

— 最全面的单人配置:日历时间块、任务重要性/紧急度评分、基于会议记录的每周回顾、每日晨报(天气 + 健康数据 + 会议 + 热搜话题 + 阅读清单 + 书中引言)、孩子考试提醒、会前调研简报、后台子代理调研商业创意、自主日历冲突管理、发票生成。成本:$400/月。—— @rahulsingh07:主代理 "Supaclaw" 获取了 API 文档,从零开始构建了一个完整的社交媒体管理智能体,包含拟稿、排期和内容日历。—— @JackCulpan:"FlightClaw:告诉你的机器人关注某条航线。

2026-02-15 19:57:15 1591

原创 从“编写代码”到“设计智能体环境”:软件工程的范式大迁移 [特殊字符]

在这一代模型之前,智能体无法在长时间跨度内处理复杂工作(上下文会腐化/腐烂),无法在无人监管的情况下端到端地交付大功能。在任何人评审之前,智能体需要运行它构建的东西。当模型(如 GPT 5.2/Opus 4.5)的上下文保持能力和逻辑一致性跨越某个阈值后,维护一套智能体自动化系统的成本将低于雇佣、沟通和管理人类开发者的成本。通常是在团队睡觉的时候。为了降低智能体的理解成本,开发者主动选择了成熟、稳定、甚至有些“无聊”的工具链(如 Go, Rust, TypeScript),避免使用过于前卫或不稳定的库。

2026-02-14 09:16:40 358

原创 Agent 步入“系统级”时代:OpenAI 详解 Skills 与 Shell 方案,终结提示词工程

当“提示词乱炖”被标准化的技能包取代,当内存管理像垃圾回收一样成为底层原语,开发者终于可以从繁琐的逻辑粘合中抽身,去构建真正具有长周期执行能力的“数字雇员”。虽然 OpenClaw 的安全性饱受诟病(被称为“带枪的管家”),但其活跃的 Skills 社区证明了:当 AI 能够直接触碰真实物理机器时,它爆发出的生产力是托管平台难以企及的。这一模式是真实工作智能体的基础,因为它创建了一个清晰的审查边界:你的应用可以向用户展示该artifact制品,记录日志,进行差异对比,或将其传入后续步骤。

2026-02-13 11:51:21 625

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除