有才不一定有德-CSDN博客

原创别再空谈“驾驭工程“：落到实处，我们做的哪些事才算 Harness Engineering？

最近"驾驭工程（Harness Engineering）"这个词开始被频繁讨论——OpenAI 在 Codex 实践里、Anthropic 在 agent harness 的描述里、Martin Fowler 的文章里都在谈它。——比如"个股深度研究 harness"“策略回测 harness”“报告生成 harness”，不同任务类型各有一套可复用的轨道。记录每一步 tool_call 的输入输出、用时、token 数、成本、错误、命中的数据源——让 Agent 能。不停在概念层面，而是把它拆成一张。

2026-06-28 14:27:30 219

原创长链路 Agent 的累积错误率：从 60% 到 99% 的工程实践

这是真正把"随机行为"变成"确定行为"的关键。入口前置条件（precondition）：开工需要的输入满足什么？不满足就立刻 fail-fast，并把错误归因到正确的上游——而不是带着烂输入往下跑，让 pivot 去莫名其妙填 NaN。失败时的契约行为（failure behavior）：产不出正常输出时，固定做什么？停、降级、返回标记过的空、还是用上次缓存顶上？这件事必须写死。出口后置条件（postcondition）：交出去的东西保证满足什么？（就是第一层的验证门。中间那条是大多数人最缺的。

2026-06-23 10:30:32 154

原创 Claude Fable 5 完整指南

整理自 Anthropic 官方文档及发布资料 · 2026 年 6 月 10 日。

2026-06-10 11:08:15 1517

原创宏观到底是个什么框架？一个工程师的入门梳理

宏观研究的是“整个经济/市场环境”，而不是“某一家公司”。研究“某家公司财报好不好、该不该买它的股票”，叫微观。研究“现在整个经济是热还是冷、钱该往哪个大类资产流”，叫宏观。微观是看一棵树，宏观是看整片森林的天气。这两件事用的方法、能得到的结论，完全不一样——记住这个区别，后面很多困惑都能解开。

2026-06-05 10:29:43 342

原创 HTML 替代 Markdown？4 个论点里只有 1 个真正成立

最近 Anthropic 的 Thariq Shihipar（Claude Code 团队工程负责人）发了一篇博客《Using Claude Code: The Unreasonable Effectiveness of HTML》，主张在 AI 工作流里，同样的内容，HTML 版本可能比 Markdown 版本多消耗 30-50% 的 token。Thariq 把它放进文章里，更像是把工作流说得"完整"而硬加的，并不是真正的核心论点。其他要么是这个核心论点的衍生，要么是被硬加进去的。

2026-05-28 17:18:01 341

原创准确定位问题，就成功了一半——读 MiniMax “嘉祺事件“ 排查报告

这篇文章通过MiniMax对"马嘉祺"输出问题的排查案例，揭示了AI时代稀缺的核心能力：准确定位问题而非简单解决问题。作者指出，常见的模糊标签（如"模型偷懒"）只会终止排查，而MiniMax通过6个维度的系统分析（包括分词器检查、embedding分布等），最终定位到"token遗忘"这一具体机制——后训练阶段某些token因使用频率过低导致参数偏移。这种精准归因不仅解决了当前问题，还连带解释了日语输出混杂俄韩字符的历史bug，并指导出有效的修复方案。文章强调，真正的工程思维在于将模糊感受转化为可验证假设，

2026-05-26 14:41:19 388

原创读完 Anthropic 100+ 个 Skills 和 Agent Prompt 后，我重写了自己的系统

Agent 系统提示词的本质是 orchestrator，不是 worker——指明调谁，不教怎么做。Skill 简洁的关键是"不写模型已知的东西"——只补充模型不知道的部分。Skill 写长了就拆，不要试图再补——重新思考哪些是必读的、哪些是按需读的。先想清楚 Skill 是被怎么调用的，再选合适的写法——不要套统一模板。最后，如果你也在做 Agent 工程，强烈建议自己去翻一下 Anthropic 的。

2026-05-25 17:08:22 445

原创动态生成 vs 静态预制：复杂 Agent 系统的 Sub-Agent 架构选择

大多数团队在做这类系统时，往往会埋头堆 Skills、堆 Tool Call，直到某一天 Token 爆炸、或者主 Agent 在长任务中后期开始出现幻觉——即：用静态 Agent 解决 80% 的确定性工作流，仅在遇到无法覆盖的边际场景时，允许主 Agent 尝试"动态组装"并输出一个。的板块（如：数据抓取、财务建模、合规审查）直接封装成固定的 Sub-Agent，主 Agent 仅作为路由进行调度。在构建复杂的 Agent（如量化投资、金融研报 Agent）时，由于业务逻辑极深，通常会积累大量的。

2026-05-15 14:14:20 389

原创让 Agent 真正“学起来“：构建多层防御性评估体系实战指南

生成 → 反思 → 经验入库 → 下一轮跑起来也没报错，甚至 Demo 给老板看效果还不错但跑得越久，效果越模糊，甚至越来越差为什么？因为整个自迭代系统能不能进步，100% 取决于"反馈信号"的质量。如果评估器（Judge）告诉 Agent：“你做得很好” —— 但其实它做得很烂，那么这个"烂"的轨迹就会被当作正例存入经验库，污染下一次决策。一旦发生级联污染（Cascading Failures），整个系统会以肉眼可见的速度退化。没有好的 Eval，就没有好的 Agent。

2026-05-12 15:52:40 277

原创 GPT-5.5 来了！

约 3500 字 · 阅读需 8 分钟。

2026-04-27 16:51:59 519

原创价格不变，账单变厚？深度拆解 Claude Opus 4.7 的“隐形”进化

分词器是 AI 的“翻译官”，它负责把我们的人类语言切成数字块（Token）。Claude Opus 4.7 是一款**“性能换取成本”**的工业级作品。如果你正在做多智能体（Multi-agent）系统： 4.7 是你的首选。它对 JSON 格式的精准控制和逻辑稳定性，能帮你省下无数调试 Agent 报错的时间。如果你对成本极度敏感：请务必重新审视你的 Context Packing（上下文填充）逻辑。因为 4.7 的分词器会让你的上下文空间比以前“显得”更小。一句话评价。

2026-04-18 19:49:34 301

原创 AI Agent 评估体系完整指南：从 Claude Code 源码学到的那些事

很多团队拿到 Agent 就直接开始测，结果发现测了半天不知道测出来说明什么。根本原因是没有先想清楚目标。这套框架是我结合 Claude Code 源码的设计思路和实际做 AI 项目的经验整理出来的。如果你的 Agent 主要做有明确对错的任务（数据查询、代码生成），第一类评估是重点如果你的 Agent 主要生成开放性内容（分析报告、建议方案），第二类评估是重点如果是金融、医疗这类高风险场景，五层框架都要有，尤其是 Kill Switch。

2026-04-13 17:40:19 387

原创 Harness Engineering：AI 时代真正稀缺的能力

当 AI 已经足够聪明，为什么还是频繁出错？答案不在模型，在它工作的"环境"。

2026-04-09 18:41:28 542

原创 AI 界的 “USB 接口”[特殊字符]Claude Code MCP 工具集成，让外部能力即插即用✨

MCP 为什么是工业级必备？即插即用：不用改核心代码统一标准：所有外部服务一套规范按需加载：省 Token、省成本、速度快安全可控：状态管理、权限清晰自带说明书：AI 永远懂怎么用不会 MCP，你在做玩具 AI；会 MCP，你在做商用级 AI 生态。Claude Code 靠 MCP 实现了真正的开放与扩展 🔥Skills 系统 —— 把高频任务变成一键命令。

2026-04-09 09:00:00 337

原创上下文爆炸终结者[特殊字符]Claude Code 四层压缩机制，让 AI 对话无限续杯✨

Claude Code 上下文压缩，是长对话 Agent 的基建天花板四层递进：轻→重，体验最优缓存优先：成本压到最低强约束提示词：保证压缩稳定执行记忆 + 恢复：AI 永远不 “断片”不会压缩的 Agent，只能玩 demo；会压缩的 Agent，才能商用落地。Claude Code 把长对话做到了真正工业化 🔥下一篇讲解：MCP 工具集成 ——AI 即插即用的 USB 标准。

2026-04-08 09:00:00 1278

原创多 Agent 协作封神设计[特殊字符]Coordinator 如何指挥 Worker 并行干活？

复杂任务必须拆分，单 Agent 撑不住必须有总指挥，否则全局混乱专用 Agent 比全能 Agent 更可靠、更便宜、更稳定好的 Agent 系统，不是一个超级 AI，而是一支高效 AI 团队。Claude Code 把这件事做到了工业级标准 🔥下一章讲解：上下文压缩机制。

2026-04-07 22:31:20 385

原创提示词工程天花板[特殊字符]Claude Code 54KB 系统提示词到底怎么设计？✨

Claude Code 的提示词，直接定义了工业级 AI 提示词标准不是一段文字，是一套系统不是靠运气，是靠工程不是给 AI 自由，是给 AI 规则不是一次性写完，是动态生长提示词工程的终点，是让 AI 像一个严谨、守规矩、高可靠的员工。而 Claude Code，把这件事做到了极致🔥下一章讲解：多 Agent 协作机制。

2026-04-07 22:17:08 333

原创读懂工业级 AI Agent 骨架[特殊字符]Claude Code 主循环与工具系统全解析

稳定的主循环：保证自主执行能力🔁可插拔工具系统：支持扩展、支持权限控制🧩动态工具池：按场景、按用户分级提供能力👥自动容错与重试：不靠模型 “智商”，靠架构保证可靠🛡️明确的退出规则：可控、可中断、可限制✅一句话总结：AI Agent 不是魔法，而是一套严谨的自动化执行系统。Claude Code 把这套系统做到了工业级。🚀下一篇讲解：提示词工程篇。

2026-04-07 22:00:50 398

原创 OpenClaw & AI Agent 深度思考总结

AI的最低竞争从“谁的大模型更强”，转向了“谁能把大模型的能力成本地接入日常工作流程”。一个喷气式飞机可以抢到这个位置，大公司反而慢了。

2026-03-11 10:01:30 345

原创 ClaudeOpus4.6震撼发布：AI界新王者降临

今天这篇文章，我们就来深度解析新发布的 Claude Opus 4.6 的核心亮点，看看这个新王者究竟强在哪里，以及我们开发者该如何用好它。作为程序员，我最关心的还是编程能力。如果说之前的 AI 模型像是一个反应很快的聪明学生，那么 Claude Opus 4.6 就像是一个会。简单来说，以前的模型收到问题后会直接给答案，而 Opus 4.6 会先。这就像给 AI 装上了一个"大脑运转仪表盘"，简单问题快速回答，复杂问题深度思考，用户能实时看到 AI 在"思考什么"、"做什么"，体验提升了好几个档次！

2026-02-06 09:52:38 929

原创开源版贾维斯来了！Clawdbot 让你的电脑拥有 AI 大脑

Clawdbot 最大的特点是它不是一个网页应用，而是一个运行在你本地机器上的 Agent 框架。这意味着什么？无需切换应用：它直接嵌入你现有的聊天软件（Telegram、WhatsApp、Discord、Slack 等）。你就像给朋友发微信一样给它下指令，完全无缝系统级权限：它能读写文件、执行命令、操作浏览器、管理邮件，基本上你能做的事情它都能做24/7 在线：只要你的电脑开着，它就像一个不眠不休的助手在待命Clawdbot 的爆火不只是一个技术项目的成功，更像是AI Agent 时代的序幕。

2026-01-28 17:33:45 1310

原创解密黑盒：如何追踪 AI 角色的“观点”变化？

摘要：最新研究提出TDKPS（时序数据核透视空间）方法，用于检测黑盒AI智能体的行为变化。该方法通过将智能体的回答转化为低维动态地图，实现跨时空的行为比较。研究验证了两种统计检验：个体智能体变化检测和群体系统性变化分析。在真实案例中，TDKPS成功捕捉到数字国会议员Agent在COVID-19疫情期间的公共卫生观点转变。这一突破为监控复杂AI系统的行为演变提供了可靠工具，对确保AI可靠性具有重要意义。（149字）

2025-12-08 09:14:59 481

原创深度解析 Claude：如何打造高阶 Skill 以及它与 Tool 的本质区别

摘要： Claude的Skill（技能）与Tool（工具）是企业级AI应用的关键组件，但二者功能不同。Skill是自定义指令集，用于固化知识、标准化流程（如文档处理或财务分析），需通过明确需求、命名、描述、指令编写和部署五步创建；而Tool是执行外部操作的函数（如数据查询）。Skill决定“如何思考”，Tool解决“如何执行”。二者协同可提升AI效能，例如Skill指导报告框架，Tool调用数据工具。开发时应聚焦高频需求，避免过度填充上下文，通过测试验证可靠性。二者的结合能将通用AI转化为专业化业务代理。

2025-12-06 10:31:15 1706

原创 AI 的记忆革命：为什么“嵌套学习”能治好大模型的“健忘症”？

摘要：传统AI存在“灾难性遗忘”问题，学习新知识时会覆盖旧知识。嵌套学习（NestedLearning）通过分层记忆机制解决这一难题，将AI模型分为快、中、慢多层，分别处理即时信息、短期经验和核心知识。基于此理论的Hope架构进一步引入连续记忆系统（CMS），使AI能动态调整学习策略，显著提升性能。实验显示，Hope在长文本理解和持续学习任务中表现远超传统模型，遗忘率仅7%。这一技术有望推动个人助理、自动驾驶等领域的突破，标志着AI从静态架构向动态生长的范式转变。

2025-12-03 08:59:38 891

原创 Grok Function Call 深度解析

X.ai的Grok工具系统采用完全自主的代理式设计，不支持传统FunctionCall和自定义工具。开发者只需发起请求即可获得最终结果，所有工具调用和决策循环都在服务器端自动完成，无需编写控制代码。系统提供固定工具集（如搜索、代码执行等），但不允许添加自定义工具或访问外部API。这种黑盒式设计简化了开发流程但降低了灵活性，适合内置工具能满足需求的场景。如需自定义功能，建议考虑OpenAI、Anthropic等其他支持FunctionCall的模型。

2025-10-31 09:32:46 1088

原创 Sora2 全面解读：它到底比初代 Sora 强在哪？

国庆刚开始，OpenAI就发表的了新一代Sora2，用给大家分享一下使用感受。

2025-10-08 10:16:16 2952

原创从工具到语境：Anthropic 双文启示下的 AI 代理工程实践心得

研读 Anthropic 的两篇文章后，我最深的体会是：AI 代理工程本质上是一次 “思维范式的转变”—— 从传统软件开发的 “确定性契约”，转向代理系统的 “非确定性协作”；从 “追求功能完备”，转向 “优化注意力预算”。以评估为驱动，以代理为中心，在有限资源内最大化信号价值。未来，随着 MCP 协议更新、LLM 能力提升，代理与世界交互的机制会不断演进，但 “系统化、评估驱动” 的工程方法，将始终是构建高效代理的基石。

2025-10-04 15:50:34 921

原创从迷茫到坚定：我的职业转型探索之路

没有人天生就是产品经理，我可以把 “证明自己” 的心态转变为 “利用机会培养能力”，而且 “试验性质” 反而给了我更大的容错空间，我的目标可以是 “跑通有价值的实验”，而不是一开始就 “做出成功的产品”。希望我的这段经历，能给正在迷茫中的你一点陪伴和力量，相信我们都能在探索中找到属于自己的方向，成为更优秀的自己。最开始，我满脑子都是疑问和担忧。我和产品经理进行了一次坦诚的 “成年人对话”，明确了项目的核心成功标准、我的具体职责，更重要的是，我们设定了一个月的试验周期和清晰的退出机制，这让我没有了后顾之忧。

2025-10-01 12:15:18 330

原创 OpenAI 2025 新接口：Responses API 全面解析，Chat Completions API 的升级之选

temperature 参数：仅支持默认值 temperature=1，不允许开发者自定义设置其他值（如 0.1、0.8），若强行设置会导致请求失败；top_p 参数：完全不支持，无需在请求中指定该参数，即使添加也不会生效，反而可能引发参数错误。因此，在调用 gpt-5 模型时，建议仅保留必要的请求参数（如 model、input），无需额外配置 temperature 和 top_p，直接使用系统默认逻辑即可。

2025-09-24 20:25:19 1623

原创 ragflow MCP 调用核心提示词解析：逻辑闭环与优化方向

本文探讨了开源项目ragflow中MCP调用体系的两个关键提示词。高级推理代理提示词通过分解复杂问题为可验证步骤，确保执行精准，其优势在于任务拆解颗粒度精准、工具使用规范明确和结果导向流程设计，但存在缺乏搜索优先级引导、信息足够判断标准不明确等问题。信息提取模块提示词专注于从搜索结果中提取关键信息，优势在于严格限定提取范围、输出格式二元化和目标导向流程设计，但需优化权威来源优先规则、部分相关信息处理和完整性判断标准。两者结合可显著提升ragflow的信息处理能力，通过针对性优化将进一步提升系统性能。

2025-09-06 18:29:13 1229

原创当 LLM 遇上真实世界：MCP-Universe 如何撕开大模型 “工具能力” 的伪装？

MCP-Universe 就像一面镜子，照出了当前 LLM 工具能力的 “真相”：我们以为的 “会用工具”，只是 “会按按钮”，但真实世界需要的是 “会选工具、会调参数、会处理意外” 的综合能力。论文结尾那句其实很扎心：“即使是 GPT-5 这样的顶级模型，在真实 MCP 环境下的表现，也远没达到实用要求。” 但这不是坏事 —— 只有明确了差距，才能找到前进的方向。毕竟，AI 要帮人类干活，先得在 “真实工具的修罗场” 里活下去，再谈 “干得好” ✊。

2025-09-04 19:36:24 959

原创多代理系统架构：Supervisor 与 Swarm 架构详解

多代理系统为我们构建复杂AI应用提供了强大基础。Supervisor 模式带来集中控制的可预测性，Swarm 模式提供去中心协作的灵活性。在实际应用中，往往需要根据具体场景选择合适的架构，甚至混合使用两种模式。无论选择哪种架构，良好的状态管理、健壮的错误处理、完善的观测体系都是成功的关键。希望本文能为你在LangGraph多代理系统的实践中提供有价值的指引。

2025-08-29 09:19:32 1752

原创构建智能提示词工程师：LangGraph 的自动化提示词生成流程

LangGraph是一个开源框架，由LangChain团队开发，用于构建和管理AI智能体工作流。它通过图形化结构编排任务，具备状态管理、任务持久化、人工干预和实时反馈等功能，能与LangChain等工具集成。核心模块包括信息收集器、最终生成器和智能流程控制器，可自动化生成高质量的提示词模板。例如，用户只需提供产品介绍需求，系统通过对话收集变量和风格要求，自动生成专业模板。LangGraph显著提升提示词生成效率，适用于开发者、内容创作者等群体。项目已在GitHub开源。

2025-08-26 19:41:23 929

原创从“魔法”到“产品”：一名一线提示词工程师揭示AI项目落地的四大挑战

企业级AI项目落地的四大挑战在企业级AI项目实践中，将大模型从“炫技工具”转化为稳定业务组件的过程中，面临核心挑战：认知鸿沟：消费级AI的“自由发挥”与企业级“精准可控”需求冲突，导致产品设计与技术实现脱节；责任模糊：模型输出错误时，难以定位问题源头（提示词、数据、模型幻觉或系统链路），团队协作效率低下；非确定性困境：模型概率性输出使功能验收、进度规划和风险管理脱离传统确定性逻辑，需敏捷试错；系统复杂性：多工具协同（如SQL、RAG）形成的长链路中，故障排查难度指数级上升。应对这些挑战需要团队重

2025-08-18 09:04:04 459

原创 GPT-5 提示词指南核心技巧总结

然而，由于 GPT-5 遵循指令的谨慎行为，包含矛盾或模糊指令的不良提示对 GPT-5 的损害可能大于其他模型，这份指南详细介绍了如何通过特定的提示（Prompting）技巧来最大化 GPT-5 在代理任务、编码、智能和指令遵循等方面的性能。通过“自我反思”的提示，引导模型先建立一个高质量标准（评分准则），然后根据这个标准进行迭代，从而一次性生成高质量的应用。对于 GPT-5 这种本身就很主动的模型，需要调整指令，避免其过度搜索，更好地平衡内部知识和外部工具的使用。利用 GPT-5 本身来优化你的提示。

2025-08-13 09:13:59 1123

原创 Eigent 终章：揭秘驱动一切的 AI 项目经理！

所以，这份 Workforce 代码其实是创建了一个非常擅长沟通和汇报的 AI 项目经理。它不仅能智能地拆解和执行任务，更重要的是，它通过在任务的每一个关键节点（分配了、开始了、完成了、失败了）都向前端发送精确的状态更新，让原本在后台运行的、复杂的 AI 协作过程，变得对用户完全透明、可见。

2025-08-12 14:32:25 959

原创 Eigent的Agent为何需要克隆？揭秘其高效运行的“影分身之术”

本文揭秘了Eigent项目中Agent克隆机制的设计原理与实用价值。当面对多任务并行处理时，直接使用Agent"本体"会导致状态污染和并发冲突两大问题。为此，Eigent采用克隆机制，通过复制Agent模板创建独立工作副本，确保每个任务拥有干净的状态空间，实现高效并行处理。该机制特别适用于复杂任务分解后的子任务执行场景，既保障了任务隔离性，又提升了系统吞吐量。文中用"菜谱复印"的生动比喻，形象说明了克隆机制如何实现资源隔离与高效协作，是支撑AI系统稳定运行的关键设计。

2025-08-09 15:47:42 1063

原创共赏Eigent开源项目：解构AI智能体团队的“岗位说明书”

这不再是关于训练一个无所不能的“超级大脑”，而是关于如何成为一名“AI 团队的架构师”，为每个智能体赋予独特的“灵魂”和“岗位职责”。它告诉我们，AI的发展，正从追求“更强大”的模型，走向探索“更有效”的协同。这位Agent是办公室里的“瑞士军刀”，能够将杂乱无章的数据和信息，转化为结构清晰、格式精美的PPT、Excel、Word甚至PDF文档。愿我们都能在AI的浪潮中，找到自己的角色，收获属于自己的果实。这位是团队的艺术家和媒体分析师，精通音视频的分析、图像内容的理解，还能根据你的想法“妙笔生画”。

2025-08-07 17:35:52 723

原创 Eigent：把AI数字劳动力团队，直接搬上你的桌面

Eigent：开创AI团队协作新时代的开源生产力平台 Eigent是一个革命性的开源多智能体生产力平台，让用户能在本地组建"AI数字员工团队"完成复杂任务。不同于单一AI工具，Eigent支持创建多个专业Agent协同工作，如研究员、数据分析师、报告撰写师等，通过链式协作处理完整工作流。该平台具有三大核心优势：支持私有化部署保障数据安全、开放可扩展的插件生态、在GAIABenchmark评测中表现顶尖。作为首个面向终端用户的多智能体系统，Eigent实现了从AI工具到数字劳动力的跨越，已

2025-08-05 17:35:13 1167

原创大模型图像与文本分析能力大揭秘深度评测

图文结合输入（实验组二、四）确实能让给出更深度的分析。但对于追求极致数值准确性的任务，纯文本输入（实验组三）反而更稳定，因为它避免了图片信息的“干扰”。所以，选对输入方式，就像“对症下药”一样重要！💊对于大规模、纯粹的数值分析任务，Gemini 系列、GLM-4.5 和 ChatGPT-o3绝对是你的首选！它们表现出了最佳的稳定性和准确性，是值得信赖的“数据分析专家”！💯几乎所有模型（特别是ChatGPT 系列）在处理小数的精确计算时，都存在可靠性问题。

2025-08-01 09:33:26 1037

空空如也

空空如也