自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(58)
  • 收藏
  • 关注

原创 长链路 Agent 的累积错误率:从 60% 到 99% 的工程实践

这是真正把"随机行为"变成"确定行为"的关键。入口前置条件(precondition):开工需要的输入满足什么?不满足就立刻 fail-fast,并把错误归因到正确的上游——而不是带着烂输入往下跑,让 pivot 去莫名其妙填 NaN。失败时的契约行为(failure behavior):产不出正常输出时,固定做什么?停、降级、返回标记过的空、还是用上次缓存顶上?这件事必须写死。出口后置条件(postcondition):交出去的东西保证满足什么?(就是第一层的验证门。中间那条是大多数人最缺的。

2026-06-23 10:30:32 141

原创 Claude Fable 5 完整指南

整理自 Anthropic 官方文档及发布资料 · 2026 年 6 月 10 日。

2026-06-10 11:08:15 1158

原创 宏观到底是个什么框架?一个工程师的入门梳理

宏观研究的是“整个经济/市场环境”,而不是“某一家公司”。研究“某家公司财报好不好、该不该买它的股票”,叫微观。研究“现在整个经济是热还是冷、钱该往哪个大类资产流”,叫宏观。微观是看一棵树,宏观是看整片森林的天气。这两件事用的方法、能得到的结论,完全不一样——记住这个区别,后面很多困惑都能解开。

2026-06-05 10:29:43 329

原创 HTML 替代 Markdown?4 个论点里只有 1 个真正成立

最近 Anthropic 的 Thariq Shihipar(Claude Code 团队工程负责人)发了一篇博客 《Using Claude Code: The Unreasonable Effectiveness of HTML》,主张在 AI 工作流里,同样的内容,HTML 版本可能比 Markdown 版本多消耗 30-50% 的 token。Thariq 把它放进文章里,更像是把工作流说得"完整"而硬加的,并不是真正的核心论点。其他要么是这个核心论点的衍生,要么是被硬加进去的。

2026-05-28 17:18:01 334

原创 准确定位问题,就成功了一半——读 MiniMax “嘉祺事件“ 排查报告

这篇文章通过MiniMax对"马嘉祺"输出问题的排查案例,揭示了AI时代稀缺的核心能力:准确定位问题而非简单解决问题。作者指出,常见的模糊标签(如"模型偷懒")只会终止排查,而MiniMax通过6个维度的系统分析(包括分词器检查、embedding分布等),最终定位到"token遗忘"这一具体机制——后训练阶段某些token因使用频率过低导致参数偏移。这种精准归因不仅解决了当前问题,还连带解释了日语输出混杂俄韩字符的历史bug,并指导出有效的修复方案。文章强调,真正的工程思维在于将模糊感受转化为可验证假设,

2026-05-26 14:41:19 382

原创 读完 Anthropic 100+ 个 Skills 和 Agent Prompt 后,我重写了自己的系统

Agent 系统提示词的本质是 orchestrator,不是 worker——指明调谁,不教怎么做。Skill 简洁的关键是"不写模型已知的东西"——只补充模型不知道的部分。Skill 写长了就拆,不要试图再补——重新思考哪些是必读的、哪些是按需读的。先想清楚 Skill 是被怎么调用的,再选合适的写法——不要套统一模板。最后,如果你也在做 Agent 工程,强烈建议自己去翻一下 Anthropic 的。

2026-05-25 17:08:22 433

原创 动态生成 vs 静态预制:复杂 Agent 系统的 Sub-Agent 架构选择

大多数团队在做这类系统时,往往会埋头堆 Skills、堆 Tool Call,直到某一天 Token 爆炸、或者主 Agent 在长任务中后期开始出现幻觉——即:用静态 Agent 解决 80% 的确定性工作流,仅在遇到无法覆盖的边际场景时,允许主 Agent 尝试"动态组装"并输出一个。的板块(如:数据抓取、财务建模、合规审查)直接封装成固定的 Sub-Agent,主 Agent 仅作为路由进行调度。在构建复杂的 Agent(如量化投资、金融研报 Agent)时,由于业务逻辑极深,通常会积累大量的。

2026-05-15 14:14:20 385

原创 让 Agent 真正“学起来“:构建多层防御性评估体系实战指南

生成 → 反思 → 经验入库 → 下一轮跑起来也没报错,甚至 Demo 给老板看效果还不错但跑得越久,效果越模糊,甚至越来越差为什么?因为整个自迭代系统能不能进步,100% 取决于"反馈信号"的质量。如果评估器(Judge)告诉 Agent:“你做得很好” —— 但其实它做得很烂,那么这个"烂"的轨迹就会被当作正例存入经验库,污染下一次决策。一旦发生级联污染(Cascading Failures),整个系统会以肉眼可见的速度退化。没有好的 Eval,就没有好的 Agent。

2026-05-12 15:52:40 275

原创 GPT-5.5 来了!

约 3500 字 · 阅读需 8 分钟。

2026-04-27 16:51:59 478

原创 价格不变,账单变厚?深度拆解 Claude Opus 4.7 的“隐形”进化

分词器是 AI 的“翻译官”,它负责把我们的人类语言切成数字块(Token)。Claude Opus 4.7 是一款**“性能换取成本”**的工业级作品。如果你正在做多智能体(Multi-agent)系统: 4.7 是你的首选。它对 JSON 格式的精准控制和逻辑稳定性,能帮你省下无数调试 Agent 报错的时间。如果你对成本极度敏感: 请务必重新审视你的 Context Packing(上下文填充)逻辑。因为 4.7 的分词器会让你的上下文空间比以前“显得”更小。一句话评价。

2026-04-18 19:49:34 298

原创 AI Agent 评估体系完整指南:从 Claude Code 源码学到的那些事

很多团队拿到 Agent 就直接开始测,结果发现测了半天不知道测出来说明什么。根本原因是没有先想清楚目标。这套框架是我结合 Claude Code 源码的设计思路和实际做 AI 项目的经验整理出来的。如果你的 Agent 主要做有明确对错的任务(数据查询、代码生成),第一类评估是重点如果你的 Agent 主要生成开放性内容(分析报告、建议方案),第二类评估是重点如果是金融、医疗这类高风险场景,五层框架都要有,尤其是 Kill Switch。

2026-04-13 17:40:19 379

原创 Harness Engineering:AI 时代真正稀缺的能力

当 AI 已经足够聪明,为什么还是频繁出错?答案不在模型,在它工作的"环境"。

2026-04-09 18:41:28 538

原创 AI 界的 “USB 接口”[特殊字符]Claude Code MCP 工具集成,让外部能力即插即用✨

MCP 为什么是工业级必备?即插即用:不用改核心代码统一标准:所有外部服务一套规范按需加载:省 Token、省成本、速度快安全可控:状态管理、权限清晰自带说明书:AI 永远懂怎么用不会 MCP,你在做玩具 AI;会 MCP,你在做商用级 AI 生态。Claude Code 靠 MCP 实现了真正的开放与扩展 🔥Skills 系统 —— 把高频任务变成一键命令。

2026-04-09 09:00:00 334

原创 上下文爆炸终结者[特殊字符]Claude Code 四层压缩机制,让 AI 对话无限续杯✨

Claude Code 上下文压缩,是长对话 Agent 的基建天花板四层递进:轻→重,体验最优缓存优先:成本压到最低强约束提示词:保证压缩稳定执行记忆 + 恢复:AI 永远不 “断片”不会压缩的 Agent,只能玩 demo;会压缩的 Agent,才能商用落地。Claude Code 把长对话做到了真正工业化 🔥下一篇讲解:MCP 工具集成 ——AI 即插即用的 USB 标准。

2026-04-08 09:00:00 1255

原创 多 Agent 协作封神设计[特殊字符]Coordinator 如何指挥 Worker 并行干活?

复杂任务必须拆分,单 Agent 撑不住必须有总指挥,否则全局混乱专用 Agent 比全能 Agent 更可靠、更便宜、更稳定好的 Agent 系统,不是一个超级 AI,而是一支高效 AI 团队。Claude Code 把这件事做到了工业级标准 🔥下一章讲解:上下文压缩机制。

2026-04-07 22:31:20 374

原创 提示词工程天花板[特殊字符]Claude Code 54KB 系统提示词到底怎么设计?✨

Claude Code 的提示词,直接定义了工业级 AI 提示词标准不是一段文字,是一套系统不是靠运气,是靠工程不是给 AI 自由,是给 AI 规则不是一次性写完,是动态生长提示词工程的终点,是让 AI 像一个严谨、守规矩、高可靠的员工。而 Claude Code,把这件事做到了极致🔥下一章讲解:多 Agent 协作机制。

2026-04-07 22:17:08 324

原创 读懂工业级 AI Agent 骨架[特殊字符]Claude Code 主循环与工具系统全解析

稳定的主循环:保证自主执行能力🔁可插拔工具系统:支持扩展、支持权限控制🧩动态工具池:按场景、按用户分级提供能力👥自动容错与重试:不靠模型 “智商”,靠架构保证可靠🛡️明确的退出规则:可控、可中断、可限制✅一句话总结:AI Agent 不是魔法,而是一套严谨的自动化执行系统。Claude Code 把这套系统做到了工业级。🚀下一篇讲解:提示词工程篇。

2026-04-07 22:00:50 392

原创 OpenClaw & AI Agent 深度思考总结

AI的最低竞争从“谁的大模型更强”,转向了“谁能把大模型的能力成本地接入日常工作流程”。一个喷气式飞机可以抢到这个位置,大公司反而慢了。

2026-03-11 10:01:30 338

原创 ClaudeOpus4.6震撼发布:AI界新王者降临

今天这篇文章,我们就来深度解析新发布的 Claude Opus 4.6 的核心亮点,看看这个新王者究竟强在哪里,以及我们开发者该如何用好它。作为程序员,我最关心的还是编程能力。如果说之前的 AI 模型像是一个反应很快的聪明学生,那么 Claude Opus 4.6 就像是一个会。简单来说,以前的模型收到问题后会直接给答案,而 Opus 4.6 会先。这就像给 AI 装上了一个"大脑运转仪表盘",简单问题快速回答,复杂问题深度思考,用户能实时看到 AI 在"思考什么"、"做什么",体验提升了好几个档次!

2026-02-06 09:52:38 913

原创 开源版贾维斯来了!Clawdbot 让你的电脑拥有 AI 大脑

Clawdbot 最大的特点是它不是一个网页应用,而是一个运行在你本地机器上的 Agent 框架。这意味着什么?无需切换应用:它直接嵌入你现有的聊天软件(Telegram、WhatsApp、Discord、Slack 等)。你就像给朋友发微信一样给它下指令,完全无缝系统级权限:它能读写文件、执行命令、操作浏览器、管理邮件,基本上你能做的事情它都能做24/7 在线:只要你的电脑开着,它就像一个不眠不休的助手在待命Clawdbot 的爆火不只是一个技术项目的成功,更像是AI Agent 时代的序幕。

2026-01-28 17:33:45 1295

原创 解密黑盒:如何追踪 AI 角色的“观点”变化?

摘要:最新研究提出TDKPS(时序数据核透视空间)方法,用于检测黑盒AI智能体的行为变化。该方法通过将智能体的回答转化为低维动态地图,实现跨时空的行为比较。研究验证了两种统计检验:个体智能体变化检测和群体系统性变化分析。在真实案例中,TDKPS成功捕捉到数字国会议员Agent在COVID-19疫情期间的公共卫生观点转变。这一突破为监控复杂AI系统的行为演变提供了可靠工具,对确保AI可靠性具有重要意义。(149字)

2025-12-08 09:14:59 479

原创 深度解析 Claude:如何打造高阶 Skill 以及它与 Tool 的本质区别

摘要: Claude的Skill(技能)与Tool(工具)是企业级AI应用的关键组件,但二者功能不同。Skill是自定义指令集,用于固化知识、标准化流程(如文档处理或财务分析),需通过明确需求、命名、描述、指令编写和部署五步创建;而Tool是执行外部操作的函数(如数据查询)。Skill决定“如何思考”,Tool解决“如何执行”。二者协同可提升AI效能,例如Skill指导报告框架,Tool调用数据工具。开发时应聚焦高频需求,避免过度填充上下文,通过测试验证可靠性。二者的结合能将通用AI转化为专业化业务代理。

2025-12-06 10:31:15 1696

原创 AI 的记忆革命:为什么“嵌套学习”能治好大模型的“健忘症”?

摘要: 传统AI存在“灾难性遗忘”问题,学习新知识时会覆盖旧知识。嵌套学习(NestedLearning)通过分层记忆机制解决这一难题,将AI模型分为快、中、慢多层,分别处理即时信息、短期经验和核心知识。基于此理论的Hope架构进一步引入连续记忆系统(CMS),使AI能动态调整学习策略,显著提升性能。实验显示,Hope在长文本理解和持续学习任务中表现远超传统模型,遗忘率仅7%。这一技术有望推动个人助理、自动驾驶等领域的突破,标志着AI从静态架构向动态生长的范式转变。

2025-12-03 08:59:38 884

原创 Grok Function Call 深度解析

X.ai的Grok工具系统采用完全自主的代理式设计,不支持传统FunctionCall和自定义工具。开发者只需发起请求即可获得最终结果,所有工具调用和决策循环都在服务器端自动完成,无需编写控制代码。系统提供固定工具集(如搜索、代码执行等),但不允许添加自定义工具或访问外部API。这种黑盒式设计简化了开发流程但降低了灵活性,适合内置工具能满足需求的场景。如需自定义功能,建议考虑OpenAI、Anthropic等其他支持FunctionCall的模型。

2025-10-31 09:32:46 1076

原创 Sora2 全面解读:它到底比初代 Sora 强在哪?​

国庆刚开始,OpenAI就发表的了新一代Sora2,用给大家分享一下使用感受。

2025-10-08 10:16:16 2944

原创 从工具到语境:Anthropic 双文启示下的 AI 代理工程实践心得

研读 Anthropic 的两篇文章后,我最深的体会是:AI 代理工程本质上是一次 “思维范式的转变”—— 从传统软件开发的 “确定性契约”,转向代理系统的 “非确定性协作”;从 “追求功能完备”,转向 “优化注意力预算”。以评估为驱动,以代理为中心,在有限资源内最大化信号价值。未来,随着 MCP 协议更新、LLM 能力提升,代理与世界交互的机制会不断演进,但 “系统化、评估驱动” 的工程方法,将始终是构建高效代理的基石。

2025-10-04 15:50:34 920

原创 从迷茫到坚定:我的职业转型探索之路

没有人天生就是产品经理,我可以把 “证明自己” 的心态转变为 “利用机会培养能力”,而且 “试验性质” 反而给了我更大的容错空间,我的目标可以是 “跑通有价值的实验”,而不是一开始就 “做出成功的产品”。希望我的这段经历,能给正在迷茫中的你一点陪伴和力量,相信我们都能在探索中找到属于自己的方向,成为更优秀的自己。最开始,我满脑子都是疑问和担忧。我和产品经理进行了一次坦诚的 “成年人对话”,明确了项目的核心成功标准、我的具体职责,更重要的是,我们设定了一个月的试验周期和清晰的退出机制,这让我没有了后顾之忧。

2025-10-01 12:15:18 327

原创 OpenAI 2025 新接口:Responses API 全面解析,Chat Completions API 的升级之选

temperature 参数:仅支持默认值 temperature=1,不允许开发者自定义设置其他值(如 0.1、0.8),若强行设置会导致请求失败;top_p 参数:完全不支持,无需在请求中指定该参数,即使添加也不会生效,反而可能引发参数错误。因此,在调用 gpt-5 模型时,建议仅保留必要的请求参数(如 model、input),无需额外配置 temperature 和 top_p,直接使用系统默认逻辑即可。

2025-09-24 20:25:19 1594

原创 ragflow MCP 调用核心提示词解析:逻辑闭环与优化方向

本文探讨了开源项目ragflow中MCP调用体系的两个关键提示词。高级推理代理提示词通过分解复杂问题为可验证步骤,确保执行精准,其优势在于任务拆解颗粒度精准、工具使用规范明确和结果导向流程设计,但存在缺乏搜索优先级引导、信息足够判断标准不明确等问题。信息提取模块提示词专注于从搜索结果中提取关键信息,优势在于严格限定提取范围、输出格式二元化和目标导向流程设计,但需优化权威来源优先规则、部分相关信息处理和完整性判断标准。两者结合可显著提升ragflow的信息处理能力,通过针对性优化将进一步提升系统性能。

2025-09-06 18:29:13 1225

原创 当 LLM 遇上真实世界:MCP-Universe 如何撕开大模型 “工具能力” 的伪装?

MCP-Universe 就像一面镜子,照出了当前 LLM 工具能力的 “真相”:我们以为的 “会用工具”,只是 “会按按钮”,但真实世界需要的是 “会选工具、会调参数、会处理意外” 的综合能力。论文结尾那句其实很扎心:“即使是 GPT-5 这样的顶级模型,在真实 MCP 环境下的表现,也远没达到实用要求。” 但这不是坏事 —— 只有明确了差距,才能找到前进的方向。毕竟,AI 要帮人类干活,先得在 “真实工具的修罗场” 里活下去,再谈 “干得好” ✊。

2025-09-04 19:36:24 953

原创 多代理系统架构:Supervisor 与 Swarm 架构详解

多代理系统为我们构建复杂AI应用提供了强大基础。Supervisor 模式带来集中控制的可预测性,Swarm 模式提供去中心协作的灵活性。在实际应用中,往往需要根据具体场景选择合适的架构,甚至混合使用两种模式。无论选择哪种架构,良好的状态管理、健壮的错误处理、完善的观测体系都是成功的关键。希望本文能为你在LangGraph多代理系统的实践中提供有价值的指引。

2025-08-29 09:19:32 1735

原创 构建智能提示词工程师:LangGraph 的自动化提示词生成流程

LangGraph是一个开源框架,由LangChain团队开发,用于构建和管理AI智能体工作流。它通过图形化结构编排任务,具备状态管理、任务持久化、人工干预和实时反馈等功能,能与LangChain等工具集成。核心模块包括信息收集器、最终生成器和智能流程控制器,可自动化生成高质量的提示词模板。例如,用户只需提供产品介绍需求,系统通过对话收集变量和风格要求,自动生成专业模板。LangGraph显著提升提示词生成效率,适用于开发者、内容创作者等群体。项目已在GitHub开源。

2025-08-26 19:41:23 926

原创 从“魔法”到“产品”:一名一线提示词工程师揭示AI项目落地的四大挑战

企业级AI项目落地的四大挑战 在企业级AI项目实践中,将大模型从“炫技工具”转化为稳定业务组件的过程中,面临核心挑战: 认知鸿沟:消费级AI的“自由发挥”与企业级“精准可控”需求冲突,导致产品设计与技术实现脱节; 责任模糊:模型输出错误时,难以定位问题源头(提示词、数据、模型幻觉或系统链路),团队协作效率低下; 非确定性困境:模型概率性输出使功能验收、进度规划和风险管理脱离传统确定性逻辑,需敏捷试错; 系统复杂性:多工具协同(如SQL、RAG)形成的长链路中,故障排查难度指数级上升。 应对这些挑战需要团队重

2025-08-18 09:04:04 455

原创 GPT-5 提示词指南核心技巧总结

然而,由于 GPT-5 遵循指令的谨慎行为,包含矛盾或模糊指令的不良提示对 GPT-5 的损害可能大于其他模型,这份指南详细介绍了如何通过特定的提示(Prompting)技巧来最大化 GPT-5 在代理任务、编码、智能和指令遵循等方面的性能。通过“自我反思”的提示,引导模型先建立一个高质量标准(评分准则),然后根据这个标准进行迭代,从而一次性生成高质量的应用。对于 GPT-5 这种本身就很主动的模型,需要调整指令,避免其过度搜索,更好地平衡内部知识和外部工具的使用。利用 GPT-5 本身来优化你的提示。

2025-08-13 09:13:59 1118

原创 Eigent 终章:揭秘驱动一切的 AI 项目经理!

所以,这份 Workforce 代码其实是创建了一个非常擅长沟通和汇报的 AI 项目经理。它不仅能智能地拆解和执行任务,更重要的是,它通过在任务的每一个关键节点(分配了、开始了、完成了、失败了)都向前端发送精确的状态更新,让原本在后台运行的、复杂的 AI 协作过程,变得对用户完全透明、可见。

2025-08-12 14:32:25 936

原创 Eigent的Agent为何需要克隆?揭秘其高效运行的“影分身之术”

本文揭秘了Eigent项目中Agent克隆机制的设计原理与实用价值。当面对多任务并行处理时,直接使用Agent"本体"会导致状态污染和并发冲突两大问题。为此,Eigent采用克隆机制,通过复制Agent模板创建独立工作副本,确保每个任务拥有干净的状态空间,实现高效并行处理。该机制特别适用于复杂任务分解后的子任务执行场景,既保障了任务隔离性,又提升了系统吞吐量。文中用"菜谱复印"的生动比喻,形象说明了克隆机制如何实现资源隔离与高效协作,是支撑AI系统稳定运行的关键设计。

2025-08-09 15:47:42 938

原创 共赏Eigent开源项目:解构AI智能体团队的“岗位说明书”

这不再是关于训练一个无所不能的“超级大脑”,而是关于如何成为一名“AI 团队的架构师”,为每个智能体赋予独特的“灵魂”和“岗位职责”。它告诉我们,AI的发展,正从追求“更强大”的模型,走向探索“更有效”的协同。这位Agent是办公室里的“瑞士军刀”,能够将杂乱无章的数据和信息,转化为结构清晰、格式精美的PPT、Excel、Word甚至PDF文档。愿我们都能在AI的浪潮中,找到自己的角色,收获属于自己的果实。这位是团队的艺术家和媒体分析师,精通音视频的分析、图像内容的理解,还能根据你的想法“妙笔生画”。

2025-08-07 17:35:52 686

原创 Eigent:把AI数字劳动力团队,直接搬上你的桌面

Eigent:开创AI团队协作新时代的开源生产力平台 Eigent是一个革命性的开源多智能体生产力平台,让用户能在本地组建"AI数字员工团队"完成复杂任务。不同于单一AI工具,Eigent支持创建多个专业Agent协同工作,如研究员、数据分析师、报告撰写师等,通过链式协作处理完整工作流。该平台具有三大核心优势:支持私有化部署保障数据安全、开放可扩展的插件生态、在GAIABenchmark评测中表现顶尖。作为首个面向终端用户的多智能体系统,Eigent实现了从AI工具到数字劳动力的跨越,已

2025-08-05 17:35:13 1036

原创 大模型图像与文本分析能力大揭秘深度评测

图文结合输入(实验组二、四)确实能让给出更深度的分析。但对于追求极致数值准确性的任务,纯文本输入(实验组三)反而更稳定,因为它避免了图片信息的“干扰”。所以,选对输入方式,就像“对症下药”一样重要!💊对于大规模、纯粹的数值分析任务,Gemini 系列、GLM-4.5 和 ChatGPT-o3绝对是你的首选!它们表现出了最佳的稳定性和准确性,是值得信赖的“数据分析专家”!💯几乎所有模型(特别是ChatGPT 系列)在处理小数的精确计算时,都存在可靠性问题。

2025-08-01 09:33:26 1030

原创 这不仅仅是一个提示词 ——它是为你的AI架构师量身打造的迷你操作系统

这篇技术文章探讨了如何通过结构化指令将大语言模型(LLM)转变为专业化的"AI架构师"。核心在于设计了一套精细的指令集,使AI能够执行包含探索、决策、行动在内的完整工作流,而不仅是简单的内容生成。该方案实现了五大突破:1)从单次响应到状态化工作流;2)建立机器间可解析的API协议;3)通过内部自洽校验提升输出质量;4)引入实用主义容错机制;5)结构化暴露不确定性。这种设计理念将软件工程思维融入LLM引导,使其行为更接近专业人类工程师.

2025-07-29 10:30:00 808

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除