- 博客(25)
- 收藏
- 关注
原创 大模型微调从零到部署:一份小白能啃动的知识地图 + 资源清单
本文为你提供一份大模型微调的完整知识地图与资源清单。从微调、RLHF、蒸馏、剪枝到推理,厘清各项技术的定位与关系。核心补充了小白最容易忽略的资源计算与成本估算,包括显存计算公式、不同精度下的显存占用、LoRA/QLoRA对比,以及云GPU成本参考。文章按阶段整理了CSDN、阿里云等平台的高质量学习链接,覆盖数据准备、动手微调、调参评估、蒸馏剪枝、部署推理到端到端项目全流程。同时提供学生党低成本方案和常见避坑指南,助你从零到落地
2026-04-02 17:06:57
401
原创 DSPy:从 Prompt 到 Program
Prompt 工程面临一个根本性矛盾:我们用"自然语言"来编程,但自然语言本质上是模糊的、不可测试的、难以版本管理的。DSPy 提出了一个激进的观点:不要写 Prompt,写 Program。本文深入分析 DSPy 的核心思想:将 Prompt 从"手工艺品"变成"可编译的代码",通过声明式编程、自动优化、模块化组合,解决 Prompt 工程的三大痛点——不可复用、不可测试、不可优化。文章对比了传统 Prompt 工程与 DSPy 的本质差异,展示了如何用 DSPy 构建可维护的 LLM 应用,并提出一个关
2026-03-03 11:51:34
1007
原创 从 Prompt 工程到系统工程:LLM 应用的分层架构设计
大多数 LLM 项目的失败不是因为模型能力不足,而是因为缺乏系统化的工程设计。本文提出一个核心观点:LLM 应用的本质不是"写 Prompt",而是构建一个分层系统。文章将 LLM 应用拆解为六个工程层级:模型层(大模型能力)、能力封装层(Skill/Tool/Function)、认知层(Agent/Planning)、数据层(RAG/Memory)、控制层(Workflow/状态机)、评估层(Eval/Feedback Loop)。通过分析从 Prompt 工程到系统工程的演进路径,揭示了为什么 Demo
2026-03-02 17:48:14
948
原创 为什么你的 Agent 总是过度思考?——LLM 的认知过拟合问题
在实际的 LLM Agent 工程实践中,我们发现了一个反直觉的现象:简单问题往往被过度复杂化。一个只需一次 SQL 查询就能解决的问题,Agent 却要经历拆解、规划、反思、校验等 8 个步骤,导致 Token 消耗翻 3 倍、响应时间翻倍、成本飙升,而准确率并未提升。本文将这种现象定义为"认知过拟合"——模型在简单任务上使用了过度复杂的推理结构。文章深入分析了这一问题的根本原因:LLM 的讨好型推理天性、Prompt 的诱导性设计、Agent 架构缺乏复杂度分级、以及缺少收敛约束机制。更重要的是,本文提
2026-03-02 17:23:55
896
原创 DSPy与Agentic RAG:让AI系统自我进化
本文介绍如何通过DSPy框架和Agentic RAG技术让智能房产推荐系统实现自我优化。DSPy将Prompt从手动调优变为自动优化,调优时间从2小时降至5分钟,准确率提升15%。Agentic RAG通过Self-RAG(检索后反思)、Corrective RAG(查询改写)、Adaptive Routing(自适应策略)三大技术,将检索相关性提升18%,复杂查询准确率提升25%。结合四层记忆系统,整体准确率从72%提升至83%,响应时间降低26%,重复推荐率降至0%。文章详细分析了实现原理、踩过的坑和关
2026-02-27 16:04:32
457
原创 从向量到图谱:混合架构如何让 RAG 系统“看懂“关系
传统 RAG 基于向量检索,擅长语义相似匹配,但难以处理关系查询和多跳推理。本文介绍一种混合架构:用向量检索做快速召回(80% 简单查询),用知识图谱做精确过滤(20% 复杂查询),将关系查询准确率从 60% 提升到 95%,同时保持 450ms 的响应速度。重点:不是"向量 vs 图谱",而是"向量 + 图谱"的融合架构。
2026-02-24 14:05:38
936
原创 RAG 系统的“照妖镜“:Verification RAG 让 AI 不再“一本正经地胡说八道“
RAG 系统虽然能检索到正确数据,但生成的答案仍可能出现"幻觉"——价格错误、属性矛盾、逻辑冲突等问题。本文介绍 Verification RAG 技术,通过交叉验证、冲突检测和置信度评分三大机制,对生成答案进行事实核查。实验表明,该方法可将准确率从 75% 提升至 92%,错误检出率达 85%,仅增加 50ms 延迟。文章详细讲解核心原理、代码实现、效果对比和最佳实践,适合 RAG 系统开发者和 AI 应用工程师阅读。
2026-02-24 09:35:25
811
原创 Memory多层技术架构:如何让 AI 真正理解用户意图
多轮对话中 AI 的"遗忘"源于系统设计缺陷,而非模型问题。本文提出四层记忆架构解决方案:实体记忆解决指代消解,对话记忆保持上下文连贯,偏置记忆学习用户真实需求,检索记忆避免重复推荐。通过该架构,指代理解准确率从 45% 提升至 92%,用户满意度提升 34%,重复推荐率降低 86%。文章详细讲解每层记忆的设计原理、实现方式、性能优化和生产环境集成方案,为 RAG 系统、多轮对话和个性化推荐系统提供工程实践指南。
2026-02-20 13:22:05
941
原创 LangGraph、AutoGen 与 CrewAI:三大 Agent 框架对比
本文对比了 LangGraph、AutoGen、CrewAI 三大 Agent 框架。基于 100 个真实房产查询的实测数据,LangGraph 在生产环境表现最优(99.5% 成功率、4.2s 平均耗时),适合复杂工作流;AutoGen 开发效率最高(最简单直观),适合快速原型;CrewAI 最擅长多 Agent 协作(自动编排)。文章强调 LLM 推理占总耗时 90%+,框架差异主要在编排层。针对不同场景提供了选择建议,并探讨了 2026 年框架融合、推理编排分离等发展趋势。
2026-02-20 12:45:11
1349
原创 从 ReAct 到 LangGraph:房产 Agent 的工作流升级复盘
从 ReAct Agent 升级到 LangGraph 的完整复盘。通过引入 5 个核心概念(State、Node、Edge、Conditional Edge、Checkpoint),我将房产 Agent 的工作流从顺序执行升级到支持并行执行、状态持久化和复杂条件分支。对比查询的性能从 5s 降低到 3s(提升 40%),同时支持了断点续传和工作流可视化。文章详细讨论了 ReAct 的局限性、LangGraph 的核心设计、实战优化和性能对比。
2026-02-19 16:29:34
821
原创 RAG 系统怎么评估?用 RAGAS 从 0.79 到 0.85 的完整复盘
很多 RAG 系统"能跑"但"不好用"。本文分享如何用 RAGAS 评估框架系统性地诊断问题。通过 4 个指标(忠实度、相关性、召回率、精准度)对 50 个测试样本进行评估,发现系统的瓶颈在召回率(0.72)。基于评估结果,我改进了 Prompt、检索算法和重排序模型,最终将综合得分从 0.79 提升到 0.85。文章还讨论了指标间的 Trade-off、评估的局限性、持续监控机制和成本分析,是一份完整的 RAG 评估实战指南。
2026-02-19 16:00:10
848
原创 用 ETL 视角讲清楚 Claude Code、Skill、Agent 和 Clawdbot
Claude Code、Skill、Agent、Clawdbot 这些 AI 概念听起来很玄乎,但如果你做过 ETL,其实早就会了。本文用 ETL 工具链类比 AI 工程化体系:Claude 模型 = SQL 语句(执行层),Skill = 存储过程(能力封装层),Claude Code = Toad(开发工具层),Agent = MOIA 作业流(任务编排层),Clawdbot = 调度平台(生产运行层)。没有新范式,只是执行引擎从 SQL 换成了 LLM。文章包含实战案例、常见误区和上手路线,帮助数据/
2026-02-12 17:33:21
949
原创 Skills、MCP、Agent、Workflow:一次讲清
本文用工程师视角解析 AI Agent 时代最容易混淆的四个核心概念。Agent 是"会干活的人",负责理解目标和决策;Skills 是"可复用的手艺",是 Prompt 的工程化封装;MCP 是"工具调用的标准协议",规范 AI 如何安全调用外部能力;Workflow 是"工作流程 SOP",定义任务的执行顺序和分支逻辑。文章结合房产推荐系统的实战案例,展示了如何将检索、重排序、推荐生成等功能拆解为独立 Skills,通过 Workflow 串联,由 Agent 统一决策,配合 Memory 实现智能化。
2026-02-11 10:03:20
890
原创 从“能检索“到“能理解“——生成端的三层优化
上周我们优化了 RAG 检索(75% → 90%),这周优化生成端。即使检索 100% 正确,如果 LLM 理解不了上下文、不知道用户真实意图、记不住用户需求变化,用户体验仍然很差。本周通过三个技术解决这些问题:Context Engineering(结构化上下文)让 LLM 理解数据、Prompt Optimization(动态 Prompt)让 LLM 按用户意图回答、Conversational Memory(对话记忆)让系统记住用户偏好。最终用户满意度从 3.2/5 提升到 4.5/5,用户二次咨询
2026-02-10 19:33:39
848
原创 Planning Agent:Agent 的价值不在检索,而在“拆对问题“
这篇文章深入解析了Planning Agent的核心价值——将复杂模糊的需求拆解为可执行的子任务序列,而非简单检索。文章指出真正的Planning必须具备可执行性、显式依赖关系和清晰数据流,并揭示了LLM在规划中的三大难点:不理解可执行性、依赖隐式和工具幻觉。通过架构设计、Plan Schema约束和五层校验机制,作者提供了从静态到自适应的三层规划方案,并给出代码实现和最佳实践,强调校验比生成更重要,控制复杂度比追求智能更关键。
2026-02-10 15:18:00
576
原创 Evaluation-driven RAG = 评估驱动的RAG优化
本文提出 Evaluation-driven RAG,通过“评估-分析-优化-迭代”闭环,解决传统 RAG 难以持续改进的问题。文章分析了 Verification RAG 在质量评估、瓶颈定位、持续优化和方案对比上的不足,并引入基于评估反馈的质量监控、瓶颈检测与参数自适应优化机制。通过递进式 Demo 展示实现方式,其中 Demo1 通过引入 Recall、Precision、MRR、NDCG 等指标量化推荐效果,使 RAG 具备持续自我优化能力
2026-01-28 08:13:44
1117
原创 Verification RAG = 检索结果验证能力升级
本文介绍 Verification RAG 技术,通过多数据源交叉验证、冲突检测和置信度评分,解决检索结果不准确问题。以房产推荐为例,展示如何在检索后加入验证层,确保学区、通勤等关键信息的准确性。虽然成本增加3倍,但显著提升了推荐质量和可信度。
2026-01-25 12:53:06
1225
原创 Agentic RAG = 多轮任务编排升级
文章介绍 Agentic RAG:把一次检索升级为“Plan→多轮检索→Reflect补缺→结构化推荐”,适合需求模糊的咨询型任务,并通过控制阀限制轮数与成本。
2026-01-24 12:36:41
1103
原创 GraphRAG = 关系链检索能力升级
本文记录我在房产推荐场景学习 GraphRAG 的实践。传统 RAG 擅长文本相似度检索,但难应对通勤、学区、配套等跨数据源的关系链组合需求。文章用 3 个递进 Demo 跑通建图、子图扩展检索与回源证据表,实现可解释推荐。同时指出 GraphRAG 成本高、维护难,建议与向量检索混合使用。
2026-01-24 12:28:29
862
原创 从 Hybrid 到 Verification:生产级 RAG 的 4 阶段升级路线
RAG 失败的根本不是模型,而是检索链路。本文提供生产级 RAG 的完整路线图:4 个必做阶段(Hybrid、Rerank、Context Engineering、Verification)+ 4 个按需模块(Query Rewrite、HyDE、GraphRAG、Agentic RAG)。每个阶段配最小实现和升级信号,帮助工程师避免 6 类常见翻车。
2026-01-23 10:55:38
1219
原创 RAG 系统从“能跑“到“好用“:我的完整优化复盘
房产 RAG 系统准确率从 75% 优化到 90%。通过 Embedding 升级(BGE)、索引优化(IVF)、Rerank 重排序、HyDE 假设文档四个方案,逐步提升检索质量。文章提供完整代码、性能数据和实战案例,帮助你系统性地优化 RAG 系统。
2026-01-22 21:22:11
866
原创 从LangChain到LlamaIndex:房产RAG系统的框架演进
代码从15行减到5行,查询速度快21%:LlamaIndex如何重新定义RAG系统
2026-01-11 17:36:52
1252
原创 LlamaIndex:用索引和检索重新定义RAG系统
这是我学习LlamaIndex框架的完整记录。通过9个递进式的本地demo,从零开始理解RAG系统的核心概念。包括Document、Node、Index、QueryEngine、ChatEngine等5个核心概念的详细讲解,以及单轮查询和多轮对话的实现方法。适合想要快速上手LlamaIndex的初学者。
2026-01-11 15:42:08
926
原创 从零到一:用LangChain搭建房产RAG系统
这是我的第一个完整RAG系统Demo。用一周时间从零开始,搭建了一个房产推荐AI系统。系统涉及向量表示学习、检索增强生成(RAG)、提示工程、对话管理、LCEL编程范式等核心知识。核心流程:用户提问 → 向量化 → 检索相关房源 → LLM生成答案 → 保存对话历史。技术栈:LangChain + Chroma + DashScope + FastAPI + Streamlit。
2026-01-10 18:39:57
1163
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅