一铭-CSDN博客

原创 AI推理框架的连续批处理（Continuous）与动态批处理（dynamic batching）

本文介绍了AI推理框架中的批处理技术，重点分析连续批处理和动态批处理的原理与应用。静态批处理适用于批量任务，但会增加延迟；动态批处理通过设置批处理大小和等待窗口，更适合图像生成等实时场景；而连续批处理在token级别处理请求，能显著提升LLM推理的吞吐量，避免GPU资源闲置。不同批处理方法需根据模型类型和业务需求选择，连续批处理是LLM部署的最佳选择，而动态批处理更适合大多数其他生成模型。

2025-08-20 08:50:40 516

原创 LangGraph实战：MCP + SSE实现远程调用MCP Server

本文介绍了在LangGraph中实现与MCP Server交互的两种方式：本地stdio调用和远程SSE调用。通过FastMCP框架分别构建了利息计算服务和Shell命令执行服务，并展示了如何通过MultiServerMCPClient同时集成这两种服务。使用create_react_agent创建支持多种工具的智能代理，实现了复合利息查询、利息计算和系统命令执行等功能。该方案为混合本地和远程服务调用提供了灵活的实现范例。

2025-07-28 20:28:12 330

原创 LangGraph实战：整合MCP（本地模式

本文介绍在langgraph 的Agent中，使用MCP Client连接和调用MCP server的工具(函数)，实现Agent的各个步骤的功能。本文使用stdio模式，没有使用sse协议。

2025-07-28 20:27:22 421

原创构建高效AI Agent的关键：Manus团队揭秘上下文工程(Context Engineering)的最佳实践

由于目前大模型训练和微调的代价很大(时间成本和资本)，Manus团队并没有选择使用这样的方式来构建基础模型，而是通过优化上下文工程(context engineering)来构建高效的Agent系统。这样，真正决定Agent表现的关键就并非仅仅是模型能力，而是**上下文工程（Context Engineering）**的设计。在这篇文章中，Manus联合创始人季逸超（Peak Ji）分享了团队在构建AI Agent过程中积累的六大核心经验。这些经验涵盖了从KV缓存优化、工具管理策略，到文件系统的利用、注

2025-07-20 18:26:13 796

原创数据库询问RAG框架Vanna的总体架构

总的来说Vanna是根据RAG构建了自己的后台架构。通过和向量库的知识库检索相关上下文知识，可以让生成的SQL语句更加准确。Vanna提供了正确知识的反馈机制，这可以说是一种自我学习的过程，这样可以让后续的回答更加准确。另外，在整个过程中加入了人工审核的过程，这在大模型的精准度没有达到一定程度之前，是非常有必要的。Vanna还提供多种使用方式（有前端，或没有前端），这样可以让用户使用起来更加灵活。

2025-07-16 21:26:35 775

原创 AI领域新趋势：从提示(Prompt)工程到上下文(Context)工程

上下文工程是一种构建动态系统的过程，目的是为LLM提供正确格式的信息和工具，使其能够合理地完成任务。这与传统的提示工程有着本质的区别。提示工程主要关注于如何巧妙地措辞提示，以期从LLM中获得更好的答案。然而，随着应用的复杂性不断增加，人们逐渐意识到，向AI提供完整且结构化的上下文比任何巧妙的措辞都更为重要。上下文工程是一个系统，而不是简单的字符串。它是一个在主LLM调用之前运行的系统，能够从多个来源获取上下文，包括应用开发者、用户、之前的交互、工具调用或其他外部数据。

2025-07-04 21:31:10 501

原创 qodo如何构建大型代码仓库的RAG？

在当今软件开发领域，代码库的规模日益庞大，动辄达到数百万甚至数亿行代码。这给开发者带来了巨大的挑战，尤其是在代码搜索和理解方面。如何在海量代码中快速准确地找到所需内容，成为了提升开发效率的关键。Augment Code团队通过引入量化向量搜索技术，成功地将代码搜索速度提高了40%，为解决这一难题提供了新的思路和方法。

2025-07-01 07:39:44 896

原创 Augment Code-如何为1亿+行代码库提速40%的代码搜索：量化向量搜索的妙用

在当今软件开发领域，代码库的规模日益庞大，动辄达到数百万甚至数亿行代码。这给开发者带来了巨大的挑战，尤其是在代码搜索和理解方面。如何在海量代码中快速准确地找到所需内容，成为了提升开发效率的关键。Augment Code团队通过引入量化向量搜索技术，成功地将代码搜索速度提高了40%，为解决这一难题提供了新的思路和方法。

2025-06-29 21:24:24 475

原创 Augment近实时代码库索引构建机制

Augment是一个类似于Cursor的代码助手，有人说比Cursor还好用。是否超过Cursor我们暂且不论，我们来看一下它是如何实现近实时索引构建的。

2025-06-26 18:39:10 1467

原创 Continue索引实现机制

Continue是一个开源的AI代码助手，本文介绍Continue索引的实现机制。Continue采用标签系统与内容寻址相结合的方式，确保无需重复索引。当您切换分支时，Continue仅会重新索引新修改且未被缓存的文件。通过实现CodebaseIndex类，该系统可应用于多种不同的"产物"（artifact）。

2025-06-25 21:22:00 870

原创构建高效智能体系统：从简单到复杂，找到最适合你的解决方案

在实际业务场景中构建智能体，最成功的实现往往不是使用复杂的框架或专用库，而是通过简单、可组合的模式来实现的。本文总结了我们在客户合作和自身开发过程中获得的经验，并为开发者提供实用的建议，帮助他们构建有效的智能体系统。

2025-06-21 09:58:13 799

原创 Vibe Coding 很爽？小心你的代码变成‘技术债’！

想象一下，像写作文一样来写软件，这可能吗？这会是一种什么样的体验？这就是最近讨论的一种新的编码方式，称之为“vibe coding”。你完全沉浸于氛围，拥抱指数级增长的产出，甚至忘记代码的存在。

2025-06-15 10:16:08 873

原创 Cursor如何快速索引代码库

在很多代码助手软件中，代码库索引的构建的流程其实都大体相似。有些在客户端完成代码索引的构建，有些通过离线任务在后端服务中完成（用户体验会好一些）。和文本索引库（RAG知识库）的构建不同，代码索引库的构建要复杂很多，不仅要对文本进行切割，还需要考虑代码结构中不同元素的代码结构，同时还需要考虑各个元素之间的关系。另外，由于嵌入模型对token的限制，切割后的代码片段不能大于这个最大的限制。所以，既要考虑代码的语法完整性和代码之间的关系，还要考虑代码片段不能太长。

2025-06-15 09:42:58 746

原创 Cursor实现原理初探总结

Cursor是最受欢迎的AI代码编辑器之一。最近newsletter.pragmaticengineer.com上发表了一篇和Cursor工程访谈的记录文章。该文章访谈了Cursor的开发者，并询问了很多Cursor的具体实现原理。这里对这篇文章的核心内容进行了总结。

2025-06-14 06:48:15 1264

原创 Langgraph实战-自省式RAG: Self-RAG

传统 LLM 仅依赖内部参数化知识生成回答，容易产生事实性错误（hallucination）。即使结合检索增强生成（RAG），也存在两个问题：（1）盲目检索：无论是否需要检索，都固定检索一定数量的文档，可能引入无关信息。（2）机械整合：直接拼接检索到的内容，可能降低生成结果的流畅性或实用性。现有 RAG 也存在很多的不足，例如：无法动态判断何时需要检索、检索内容是否相关，导致生成质量不稳定。

2025-06-08 20:14:02 1142

原创 Langgraph实战--自定义embeding

在Langgraph中我想使用第三方的embeding接口来实现文本的embeding。但目前langchain只提供了两个类，一个是AzureOpenAIEmbeddings，一个是：OpenAIEmbeddings。通过ChatOpenAI无法使用第三方的接口，例如：硅基流平台的接口。只能自己封装一个类，继承Embeding接口，从而实现整合第三方平台Embending API的能力。

2025-06-07 21:23:43 443

原创 Langgraph实战--在Agent中加入人工反馈

通过对AI输出中加入人类的反馈已经，能够让AI更好的输出符合预期的内容。同时，通过人工的审核，可以更好的保证输出内容的安全性和准确性。

2025-06-06 19:38:34 331

原创大吞吐量的推理引擎：Tokasaurus

Tokasaurus一款针对吞吐量密集型工作负载进行了优化的全新 LLM 推断引擎。对于小型模型，Tokasaurus 可利用极低的 CPU 开销和动态 Hydragen 分组来利用共享前缀。

2025-06-06 08:21:22 1006

原创 Github Copilot新特性：Copilot Spaces-成为某个主题的专家

Copilot的Spaces功能提供了一个能够把各种材料集中起来的知识库。通过这些材料让copilot能够更加深入的理解代码，并能够更加准确和专业地回答用户提示出的各种问题。另外，Spaces能够保持和代码仓库实时同步，让Copilot能够及时获取到最新的知识。另外，Spaces分享的功能也让团队之间的知识分享更加简单。

2025-06-05 21:02:11 1060

原创 LLM多平台统一调用系统-LiteLLM概述

在当今快速发展的AI领域，大语言模型(LLM)已成为技术创新的核心驱动力。然而，随着市场上涌现出越来越多的LLM提供商（如OpenAI、Anthropic、Google Gemini、AWS Bedrock等），开发者面临着一个日益复杂的问题：每个平台都有自己独特的API接口、认证方式和响应格式，这使得在不同模型间切换变得异常困难且维护成本高昂。LiteLLM应运而生——这是一个开源工具，旨在通过统一的OpenAI格式接口，简化对多种LLM服务的调用与管理。本文将全面介绍LiteLLM的核心功能、使用场景及

2025-05-25 20:12:24 687

原创 LLM基础-什么是大模型推理（LLM Inferencing）

和传统的机器学习模型类似，大模型也可以分为：模型训练和模型推理两个过程。模型训练就是给定的数据和算法训练出一个模型（一堆文件，包括：模型权重、配置等），然后就可以使用该模型来进行预测或分类等操作。模型推理（Model inference）是使用已训练的机器学习模型根据新的输入数据生成预测的过程。

2025-05-25 17:57:50 660

原创 Langgraph实战-多Agent-主副Agent协同

如果单个Agent需要专门从事多个领域的工作或管理许多工具，它可能会很吃力。为了解决这个问题，你可以将Agent分解成更小的、独立的Agent，并将它们组合成一个多Agent系统。在多Agent系统中，Agent之间需要相互通信。它们通过 “交接”（handoffs）进行通信。“交接 ”是一种描述将控制权交给哪个Agent以及向该Agent发送有效载荷的基本要素。

2025-05-21 07:30:17 599

原创 DoomArena：AI 智能体安全测试的新框架

在人工智能（AI）智能体（Agent）技术快速发展的今天，越来越多的企业和研究机构开始将AI智能体应用于自动化任务中，例如网页浏览、工具调用和客户服务等。然而，随着智能体的广泛应用，其安全性问题也日益凸显。恶意攻击者可能通过多种方式利用智能体的漏洞，例如数据泄露、权限提升和未经授权的金融交易等。为了应对这些挑战，ServiceNow Research和华盛顿大学的研究团队开发了**DoomArena**——一个模块化、可配置、即插即用的AI智能体安全测试框架。

2025-05-07 07:58:02 818

原创 dify实现分析-agent-Agent的类设计

本文分析了Dify的Agent设计框架。分析类Dify Agent相关的各个类的实现和关系。并对各个类的功能进行类分析。

2025-05-06 08:44:07 1018

原创 MCP实战-本地MCP Server + Client实战

本文开发一个MCP的Client和Server。然后通过本地模式来运行，并获取到server的结果。

2025-04-27 17:33:01 237

翻译适用于企业智能体的智能体网格（翻译）

这种新范式需要一个“智能体网格”，即一个平台，无论这些智能体、LLM 或工具部署在何处，都可以在所有智能体交互中实现安全性、可观察性、发现和治理。本文阐述了这一愿景，以及我们 Solo.io 如何准备提供此基础设施。

2025-04-27 08:46:49 82

原创 LLM基础-什么是Tokenizer

在自然语言处理（NLP）中，Tokenizer（分词器）是将文本转化为模型可处理单元（Token）的核心组件。它的拆分逻辑直接影响模型的性能、效率和泛化能力。本文介绍Tokenizer的文本拆分机制

2025-04-27 07:46:31 577

原创 MCP实战-本地MCP Server+Cursor实践

本文介绍了如何编写一个最简单的本地MCP Server，并通过Cursor来使用该MCP Server。

2025-04-24 19:09:42 639

原创 LLM基础-什么是嵌入（Embeddings）

在自然语言处理（NLP）领域，Token Embeddings（标记嵌入）扮演着至关重要的角色。它不仅是语言模型的基础，更是连接人类语言与机器理解的桥梁。本文将深入探讨 Token Embeddings 的原理、生成过程、应用场景，以及它在现代语言模型中的重要性。

2025-04-23 19:23:41 854

原创 Langgraph实战-Agent-使用ReAct进行情感分析

在这个例子中创建了一个情感分析 Agent，它使用 LLM（大型语言模型）来处理客户反馈，并集成自定义情感分析工具，将反馈分为正面、中性或负面。根据情感分析结果， Agent使用 ReAct（推理、行动、观察）框架生成适当的回应。 Agent对客户反馈进行推理，调用情感分析工具，并作出回应。

2025-04-23 08:35:20 556

原创 Langgraph实战-Agent-ReAct（Reason+Act）概述

ReAct 架构将推理与动作相结合，使Agent能够通过生成想法并基于这些想法执行动作。这种决策透明度使Agent能够更负责地执行任务，因为它会记录每一步的推理过程。

2025-04-22 07:32:30 1139

原创 LLM基础-什么是Token？

Token 是大语言模型（LLM, Large Language Model）中最基本的输入单元，它是语言被模型“理解”的方式。不同于人类可以直接看懂一段自然语言文本，LLM 只能处理数字，而这些数字就是由 token 转换而来的。

2025-04-20 13:27:18 551

原创本地离线安装Ollama

官方提供了一个下载和执行的脚本，但是由于网络原因，该脚本实在太慢了，只能手动下载安装包。此时，虽然安装包已经下载了，但不要自己解压安装，否则会出现很多未知的错误。最好是用官方提供的脚本来安装。

2025-04-20 13:18:13 585

原创 LangGraph实战-在agent中使用短期记忆（Short-Term memory）

通过使用MemorySaver，我们可以在会话线程中存储对话的状态。在后台，LangGraph 每一步都会保存检查点（checkpoints）--对话状态的快照。这些检查点与模拟会话的线程 ID 相连。只要线程 ID（thread ID）保持不变，Agent就能记住过去的交互。

2025-03-23 09:17:32 981

原创 FastGPT原理分析-数据集创建第二步：处理任务的执行

本文介绍了文件上传后的任务触发方式。可以看到，是通过监控mongodb数据表dataset_trainings的插入操作来触发数据处理任务。有两种数据处理方式：（1）QA问答方式数据处理；（2）嵌入向量处理方式。后面会介绍这两种方式的具体实现逻辑。

2025-03-23 09:06:01 564

原创 LangGraph实战-Graph构建的基本概念

顾名思义，LangGraph是围绕Graphs（图）展开的，图是连接任务的网络，可用来构建AI智能体的Workflow（工作流）。这些工作流程依赖于四个主要组件：* State（状态）：表示应用程序当前快照的共享数据结构。它可以是任何 Python 类型，但通常是 TypedDict 或 Pydantic BaseModel。* Nodes（节点）：编码代理逻辑的 Python 函数。它们接收当前状态作为输入，执行一些计算或额外功能，并返回更新后的状态。* Edges（边）：根据当前状态决定下一步执

2025-03-21 08:42:47 787

neo4j调优手册v1.0.pdf

write_solid_code

泰坦里克事故乘客训练和测试数据

avafind 破解版

unix network programing

linux编程和内核的调试技巧

空空如也