wshzd-CSDN博客

原创 LLM之Agent（二十三）| Agentic-Doc：轻松从复杂文档中提取结构化数据

ADE 是一种人工智能驱动的方法，超越了简单的 OCR。它不仅仅是阅读文本，而是：理解视觉布局：识别表格、图片、标题、段落、图表等。提供地面实况边界框：准确显示每个数据块在页面上的位置。返回结构化输出：以分层方式组织内容，包括位置和类型信息。文档中的数据不仅与文本有关，还与结构、表格、标题和视觉提示有关。ADE 保留所有这些上下文，这对于下游自动化、搜索和 QA 非常有用。agestic-doc 是 ADE API 的 Python 包装器。

2025-08-06 14:23:09 601

原创 LLM之Agent（二十二）| AI代理的上下文工程：构建Manus的经验教训

文章原文：https://manus.im/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus在Manus项目的最初阶段，我和我的团队面临一个关键决策：我们是应该使用开源基础模型训练一个端到端的智能体模型，还是基于前沿模型的上下文学习能力构建一个智能体？在我的NLP生涯的第一个十年里，我们没有这种选择的奢侈。在遥远的BERT时代（是的，已经过去七年了），模型必须先进行微调——和评估——才能迁移到新任务。

2025-07-31 10:42:12 965

原创 LLM之RAG理论（十八）| ChatGPT DeepResearch 深度研究功能全面技术分析报告

在 HLE 测试中，DeepResearch 使用的模型在专家级问题上达到了 26.6% 的准确率，刷新了之前由 OpenAI o3-mini 保持的 18.2% 的纪录。但为了能生成专业的长篇报告，以及方便指导后续的信息搜索，生成有指导意义的写作大纲是有必要的，类似 "Plan-and-Solve" 的思路，先充分规划，再有效执行。：类似于系统的 "探索者"。：随着大语言模型（LLM）能力的不断提升，特别是推理能力的显著增强，AI 从简单的信息检索和回答向复杂的研究任务转变成为可能。

2025-07-30 14:54:29 1054

原创 LLM之Agent（二十一）| FastAPI MCP 服务器指南（附代码）

FastAPI MCP 是一个零配置工具，可自动将您的 FastAPI 端点公开为模型上下文协议（MCP）工具。FastAPI MCP 的美妙之处在于它的简单性——它采用您现有的 API 端点并使它们可供 AI 模型访问，而无需您重写代码或创建单独的实现。使用 FastAPI MCP，您可以：自动将 FastAPI 端点转换为 MCP 工具；保留 API 架构和文档；将 MCP 服务器与 API 一起部署，或作为单独的服务部署；自定义哪些终端节点作为工具公开；控制工具描述的生成方式。

2025-07-21 14:02:57 1016

原创 LLM之RAG理论（十六）| DeepResearch综述论文译文

深度研究”（Deep Research）是指人工智能技术通过三个核心维度实现研究过程的自动化和增强：（1）智能知识发现（Intelligent Knowledge Discovery）：跨异构数据源实现文献搜索、假设生成和模式识别的自动化。（2）端到端工作流自动化（End-to-End Workflow Automation）：将实验设计、数据收集、分析和结果解释整合到统一的人工智能驱动的流程中。（3）协同智能增强（Collaborative Intelligence Enhancement）

2025-07-18 10:46:59 686

原创 LLM之Agent（二十）| 终极 MCP 手册：从基础到高级 LLM 集成（附代码）

模型上下文协议（MCP）是一种标准化方法，用于组织、交付和处理大型语言模型（LLM）的上下文信息。它旨在帮助模型更好地理解和利用提示中提供给它们的信息。MCP的关键组件包括：结构化格式：使用结构清晰的格式（比如XML）来组织不同类型的数据；信息层次结构：按重要性和相关性进行优先级排序，从而帮助模型确定哪些内容是重要的；元数据标记：提供有关上下文的其他信息，例如来源、可靠性或时间戳；处理指令：模型应如何处理、解释或使用特定信息的明确指导；

2025-07-17 11:01:51 969

原创 LLM之RAG实战（五十七）| RAG 20多种常见算法对比

在本文，将介绍一下RAG常用的20多种算法。源码原始地址：https://github.com/FareedKhan-dev/all-rag-techniques源码完善后的地址：https://github.com/ArronAI007/Awesome-AGI/tree/main/RAG/examples/rag_examples。

2025-06-30 11:28:18 1038

原创 LLM之RAG实战（五十七）| 探索Langchain-Chatchat-V0.3：开启智能问答新时代

在人工智能飞速发展的当下，自然语言处理领域的创新成果层出不穷。Langchain-Chatchat-V0.3 便是其中备受瞩目的存在，它是基于 Langchain 思想精心打造的、面向本地知识库的智能问答应用，旨在为中文场景和开源模型提供极为友好的支持，并且能够实现离线运行，为用户打造独特的知识库问答解决方案。

2025-06-24 11:20:33 608

原创 LLM之Agent（十九）| II-Agent：开源智能体的新曙光

II-Agent 并非传统意义上简单的聊天机器人，而是一个致力于成为跨多个领域的全能代理的智能助手框架。它的出现，旨在打破人工智能应用的局限性，让 AI 真正融入到我们生活和工作的方方面面。从技术层面来看，II-Agent 有着独特的核心要素。首先是强大的大语言模型（LLM），目前它支持 Claude 3.7 Sonnet（通过 Google Cloud Vertex AI）。大语言模型就如同 II-Agent 的 “大脑”，赋予它理解自然语言、生成文本以及进行逻辑推理的能力。

2025-06-19 14:37:43 1065

原创 LLM（十九）| MiniMax-M1：大模型界的“新势力”，能否弯道超车？

MiniMax-M1 以其创新的架构、卓越的性能、出色的实战表现和亲民的价格，在大模型领域中崭露头角，成为了一颗耀眼的明星。它的出现，为人工智能的发展注入了新的活力，也为我们的生活和工作带来了更多的可能性。随着技术的不断进步和应用场景的不断拓展，我们有理由相信，MiniMax-M1 将在未来发挥更加重要的作用，为推动人工智能技术的发展和应用做出更大的贡献。让我们共同期待 MiniMax-M1 在未来的精彩表现，见证人工智能技术为我们带来的更多惊喜和变革。

2025-06-17 12:55:53 761

原创 LLM之RAG实战（五十六）| Ollama部署下载Qwen3-Embedding向量模型和Qwen3-Reranker重排模型

参考文献：https://blog.csdn.net/qq363685855/article/details/148512248之前分享过。本文将分享如何使用ollama来部署这些模型。

2025-06-13 15:32:13 1538 1

原创 LLM之RAG实战（五十五）| 阿里开源新模型，Qwen3-Embedding与Qwen3 Reranker强势来袭！

Qwen3-Embedding 的训练通过“合成数据生成→高质量精炼→模型融合”的三阶段框架，结合双编码器架构与指令微调技术，实现了多语言、长文本、高泛化性的语义表征能力。其开源的0.6B/4B/8B全规格模型（Apache 2.0协议）及阿里云API服务，大幅降低了企业落地高精度检索系统的门槛。开发者可通过Hugging Face或ModelScope快速部署。

2025-06-13 15:18:59 1114

原创 LLM之RAG实战（五十四）| 复杂文档处理RAG框架：Ragflow

RAGFlow 是一种结合了检索增强（Retrieval-Augmented Generation，RAG）与流程控制（Flow）的人工智能技术架构。它通过检索外部知识库中的信息，结合自然语言生成技术，为用户提供更准确、更丰富的回答。同时，它还引入了流程控制机制，能够根据任务需求动态调整信息检索和生成的流程，从而更好地完成复杂的任务。RAGFlow 的核心优势在于将检索和生成相结合，打破了传统生成模型仅依赖内部参数进行文本生成的局限。

2025-06-04 14:43:59 699

原创 LLM（十八）| Anthropic发布史上最强编程模型：Claude 4

这也是Claude自2024年6月以来的首次大版本号更新。Amodei称，Anthropic已经有一段时间没有更新Opus模型了，Anthropic对Opus的定位是旗下最强大、最智能的模型，而Sonnet是用户过去大约一年来一直在使用的中等水平模型。Claude Opus 4在多项基准测试上的成绩并未明显高于Claude Sonnet 4，甚至略低于后者。Amodei强调，

2025-05-26 16:15:01 1141

原创 LLM之Agent（十六）| MCP已“过时”？Google近期推出Agent2Agent 协议（A2A）

如今，企业越来越多地构建和部署自主代理，以帮助扩展、自动化和增强整个工作场所的流程 - 从订购新笔记本电脑到协助客户服务代表，再到协助供应链规划。为了最大限度地发挥代理 AI 的优势，这些代理能够在一个动态的、多代理的生态系统中跨孤立的数据系统和应用程序进行协作，这一点至关重要。使代理能够相互作，即使它们是由不同的供应商或不同的框架构建的，也将增加自主性并成倍提高生产力，同时降低长期成本。

2025-04-11 17:19:27 790

原创 LLM之RAG实战（五十三）| 微调Embedding模型：终极指南

使用nltk进行切块，这样便于llm更好的处理。我们配置了 Matryoshka 损失函数，指定了用于截断嵌入的维度。内部损失函数 MultipleNegativesRankingLoss（可参考：https://sbert.net/examples/sentence_transformer/training/matryoshka/README.html）可帮助模型生成适合检索任务的嵌入。

2025-04-03 15:24:22 896

原创 LLM之Agent（十五）| 使用Langchain实现模型上下文协议（MCP）

MCP 可以用作通用接口，将其视为 AI 的 USB-C，在LLMs/AI Agent和外部资源之间实现无缝、安全和可扩展的数据交换。AI Agent的挑战在于传输给Agent数据，换句话说，基于AI Agent/LLM 的应用程序集成到外部数据源。开发人员也可以使用 MCP 构建可重用的模块化连接器，并为流行的平台提供预定义的服务器，从而创建一个社区驱动的生态系统。在另一个终端创建一个文本文件client.py用于客户端。使用运行客户端：python client.py。

2025-03-31 17:45:00 324

原创 LLM之Agent（十四）| 字节开源ComputerUse纯视觉驱动GUI 智能体模型 UI-TARS

Agent TARS 是一款开源的多模态 AI 智能体，能够基于视觉理解网页内容，并与浏览器、命令行和文件系统无缝集成，实现复杂任务的规划与执行。它旨在为用户提供高效、便捷的自动化体验，具有多模态交互能力、强大的任务规划与执行功能，以及高度的可扩展性和灵活性。

2025-03-25 15:59:32 1576

原创 LLM之RAG理论（十四）| RAG 最佳实践

检索结果可能包含冗余或不必要的信息，这可能会阻止生成LLM准确的响应。此外，较长的提示可能会减慢推理过程。因此，在 RAG 过程中，汇总检索到的文档的有效方法至关重要。提取式压缩器将文本分割成句子，根据重要性对它们进行评分和排名。Generative Compressor 综合来自多个文档的信息，以重新措辞并生成连贯的摘要。这些任务可以是基于查询的，也可以是非基于查询的。主要评估三种方法：Recomp：它具有抽取式和生成式压缩机。提取式压缩器选择有用的句子，而生成式压缩器则综合来自多个文档的信息。

2025-03-23 23:45:33 898

原创 LLM之RAG实战（五十二）| 如何使用混合搜索优化RAG 检索

在RAG项目中，大模型生成的参考内容（专业术语称为块）来自前一步的检索，检索的内容在很大程度上直接决定了生成的效果，因此检索对于RAG项目至关重要，最常用的检索方法是关键字搜索和语义搜索。本文将分别介绍这两种搜索策略，然后将它们结合起来进行混合检索。

2025-03-23 08:56:43 1680

原创 LLM（十七）| 阿里Marco-o1：OpenAI-o1 的开源替代品

Marco-o1 旨在通过采用蒙特卡洛树搜索（MCTS）和思维链（CoT）微调等先进技术来处理复杂的推理任务。它的主要重点是为开放式问题生成多个解决方案，而不是满足于单一答案，这与类似人类的推理过程更紧密地保持一致。Marco-o1 不仅适用于具有明确答案的学科，例如数学、物理或编码，在这些学科中，使用强化学习（RL）很容易衡量成功。它还侧重于解决没有固定规则或明显方法来判断成功的开放式问题例如：想象一下 Marco-o1 是一个超级聪明的问题解决者。

2025-03-13 11:26:53 512

原创 LLM漫谈（十）| DeepSeek R1 微调指南

在本文中，我们将深入探讨使用 Python 微调 DeepSeek R1模型的过程。

2025-03-13 10:43:47 1085

原创 LLM漫谈（九）| DeepSeek NSA论文全文翻译

长文本建模对于下一代语言模型至关重要，然而标准注意力机制的高计算成本带来了显著的计算挑战。稀疏注意力为提高效率的同时保持模型能力提供了一个有前景的方向。我们提出了 NSA（Native Sparse Attention），这是一种可原生训练的稀疏注意力机制，通过将算法创新与硬件对齐优化相结合，实现了高效的长文本建模。NSA 采用动态层次化的稀疏策略，将粗粒度的标记压缩与细粒度的标记选择相结合，既保留了全局上下文感知能力，又保持了局部精度。

2025-02-20 18:36:06 976

原创 LLM（十六）| s1：50美元大模型可以和DeepSeek R1媲美吗？

在推理阶段，s1 引入了一种预算强制方法来控制推理时间和计算。这是一个简单的解码时间干预，控制思维标记的数量：为了强制执行最大值，将附加 end-of-thinking token 和 “Final Answer：” 以强制提前退出并提示模型提供其最佳答案。为了强制执行最小值，会抑制 end-of-thinking 标记，并且可以将 “Wait” 添加到推理路径中，从而鼓励进一步的思考。图3.s1-32B 的预算强制。

2025-02-19 17:13:12 858

原创 LLM（十五）| Kimi k1.5：解锁语言模型强化学习新高度

为了让短 CoT 模型也能有更好的表现，Kimi k1.5 提出了几种方法，比如模型合并，直接平均长 CoT 和短 CoT 模型的权重；而强化学习为人工智能的发展开辟了新方向，Kimi k1.5 就是基于强化学习训练的多模态大模型，它能通过奖励机制探索学习，不再局限于固定的数据集。利用精心设计的提示工程，构建高质量的长 CoT 热身数据集，让模型学习人类的推理策略，如规划、评估、反思和探索。同时，引入长度惩罚机制，避免模型生成过长的推理过程，还提出了课程采样和优先采样两种策略，提高训练效率。

2025-02-17 16:03:37 1007

原创 LLM（十四）| DeepSeek-R1概况

2025年1月20日，杭州深度求索人工智能基础技术研究有限公司发布高性能AI推理模型DeepSeek-R1，对标OpenAI的o1正式版。目前发布了两个版本：DeepSeek R1-Zero 和 DeepSeek R1。其中，DeepSeek-R1-Zero 是一个完全基于强化学习（RL）训练而无需监督微调（SFT）的模型。通过强化学习（RL），DeepSeek-R1-Zero 自然地展现出许多强大且有趣的推理行为。然而，它也遇到了一些挑战，如可读性差和语言混合问题。

2025-02-08 14:58:51 2655

原创 LLM（十三）| DeepSeek-R1论文全文翻译

我们介绍第一代推理模型：DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一个完全通过大规模强化学习（RL）训练而无需监督微调（SFT）作为初步步骤的模型，展示了显著的推理能力。通过RL，DeepSeek-R1-Zero 自然地展现出许多强大且有趣的推理行为。然而，它也遇到了一些挑战，如可读性差和语言混合问题。为了解决这些问题并进一步提高推理性能，我们引入了DeepSeek-R1，它在RL之前引入了多阶段训练和冷启动数据。

2025-02-08 14:55:02 1072

原创 LLM之Agent（十三）| 使用 PydanticAI 框架构建多代理LLM 系统（保姆教程）

假设您正在制作一个应用程序，用户可在其中提交他们的姓名、年龄和电子邮件。您希望确保：名称是一个字符串；年龄是一个数字；电子邮件的格式有效；从以下示例可以看出 Pydantic 是如何简化此操作：。

2025-01-06 17:52:56 1439

原创 LLM之RAG理论（十三）| 传统RAG和Agentic RAG比较

Agentic RAG 代表了信息检索的重大发展，与传统 RAG 相比，它提供了一种更复杂和自主的方法。通过整合 AI 代理，Agentic RAG 系统可以处理复杂的查询，适应不断变化的信息环境，并提供更准确和相关的响应。虽然在复杂性和可靠性方面仍然存在挑战，但 Agentic RAG 的潜在优势是巨大的，为跨各个领域更智能、更高效地访问和利用信息铺平了道路。

2025-01-06 14:09:26 670

原创 LLM之RAG实战（五十一）| 使用python和Cypher解析PDF数据，并加载到Neo4j数据库

使用 LayoutPDFReader 解析每个 PDF；将解析后的数据加入到Neo4j数据库中；查找指定目录中的所有 PDF 文件；

2025-01-06 10:58:33 889

原创 MLLM（四）| 阿里多模态大模型QVQ-72B-Preview：以智慧看世界

QVQ 在 MMMU 上获得了 70.3 分，与 Qwen2-VL-72B-Struct 相比，在数学相关基准测试中显示出显着改进。通过仔细的逐步推理，QVQ 在视觉推理任务中展示了增强的能力，尤其是在需要复杂分析思维的领域中表现出色。QVQ-72B-Preview 在 MMMU 基准测试中以70.3 分超过其前身 Qwen2-VL-72B-Instruct。此外，在其余三个专注于数学和科学问题的基准测试中，该模型表现出卓越的性能，有效地缩小了与领先的最先进的 o1 模型的差距。

2025-01-03 14:45:52 850

原创 LLM（十二）| DeepSeek-V3 技术报告深度解读——开源模型的巅峰之作

DeepSeek-AI 团队最新发布的 DeepSeek-V3，作为一款强大的混合专家模型（Mixture-of-Experts, MoE），凭借其高效的架构和创新的训练策略，成为了当前最强的开源模型之一。通过创新的架构设计、高效的训练策略和经济的成本控制，DeepSeek-V3 不仅成为了当前最强的开源模型之一，也为未来的 AI 研究提供了宝贵的参考。DeepSeek-V3 的推理部署采用了预填充（Prefilling）和解码（Decoding）分离的策略，确保了在线服务的高吞吐量和低延迟。

2024-12-31 15:44:58 24195 1

原创 LLM漫谈（八）| OpenAI 12天直播集锦

🛠️ ChatGPT Canvas 是 OpenAI 在今年10月推出的基于 ChatGPT 的全新功能，经过数月的测试，现已正式上线。🎊🔖 OpenAI 官方将 Canvas 定义为 "A new way of working with ChatGPT to write and code"，意在通过这一功能提升写作与编程的效率。Canvas 名字源于英文“画布”的含义，它为用户提供了一个独立的可视化工作区，突破了传统聊天框的交互限制。🎨。

2024-12-26 16:00:51 1160

原创 LLM之RAG实战（五十）| FastAPI：构建基于LLM的WEB接口界面

FastAPI是WEB UI接口，随着LLM的蓬勃发展，FastAPI的生态也迎来了新的机遇。本文将围绕FastAPI、OpenAI的API以及FastCRUD，来创建一个个性化的电子邮件写作助手，以展示如何结合这些技术来构建强大的应用程序。

2024-12-13 15:21:17 1374

原创 LLM之RAG实战（四十九）| Langchain-chatchat源码解析

参考链接：https://juejin.cn/post/7316820571207499787。参考链接：https://juejin.cn/post/7317094146874212388。参考链接：https://juejin.cn/post/7385109416721612841。参考链接：https://juejin.cn/post/7321748041773088803。参考链接：https://juejin.cn/post/7397352785606017059。

2024-12-13 11:14:35 290

原创 LLM之RAG实战（四十八）| AutoRAG：基于用户数据自动优化RAG pipeline的AutoML工具

在这种情况下，您需要使用一个语料库创建 QA，然后将语料库的其余部分映射到 QA 数据。完成后，可以看到在当前目录中创建的多个文件和文件夹。在命名为数字（如 0）的 trial 文件夹中，可以检查summary.csv文件，该文件汇总了评估结果和最适合您数据的 RAG 管道。是非常耗时和困难的。trial 文件夹是正在运行的控制面板中使用的目录。也可以同时使用多个Parse模块，这种情况下，需要为每个解析的结果返回一个新进程。如果想制作自己的配置 YAML 文件，可以查看配置 YAML 文件[2]部分。

2024-10-31 17:38:43 1620

原创 LLM之RAG实战（四十七）| GraphRAG：使用知识图谱改进 RAG 检索策略

此外，GraphRAG 利用知识图谱的模块化，将它们划分为语义相关的单元，并为每个单元生成摘要报告。此类问题的上下文可能分散在大型存储库中，这使得通常使用 top-k 算法的矢量检索方法难以捕获所有相关的文档块，从而导致信息检索不完整。相比之下，知识图谱 RAG 从查询中提取实体，并从图数据库中检索相关实体和关系。相比之下，知识图谱 RAG 在摄取期间从文档块中提取实体和关系，并将其存储在图形数据库中。在检索过程中，知识图谱 RAG 从查询中提取实体，并从图数据库中检索相关实体和关系。

2024-10-31 10:29:36 1795

原创 LLM之RAG实战（四十六）| Langflow：一个用于构建 RAG 和多代理应用的低代码应用构建工具

它基于 Python 构建，并且不依赖任何模型、API 或数据库。无需配置，登录https://astra.datastax.com/signup?切换Prompt为：Answer the user as if you were Hermione Granger.输入Prompt：Answer the user as if you were a pirate.：作为任何模型、API 或数据库的可重用组件。：与模型、API、数据源或数据库无关；：通过拖放方式构建和测试工作流；：无需设置，几分钟内即可启动；

2024-10-29 15:02:38 1154

原创 LLM之RAG实战（四十五）| LightRAG：创新双级检索系统，整合图形结构，实现更强大信息检索！

成本和适应性分析：LightRAG在索引和检索过程中的令牌和API调用数量上比GraphRAG更高效，特别是在处理数据变化时的增量更新阶段。高效的检索效率：通过结合图结构和向量表示，LightRAG能够高效地检索相关实体及其关系，显著提高了响应时间，同时保持了上下文相关性。评估：在多个数据集上的实验评估表明，LightRAG在多个维度上优于现有的RAG基线方法，包括在处理大规模语料库和复杂查询时的优越性。图结构的整合：LightRAG通过使用图结构来表示实体间的复杂关系，从而能够更细致地理解和检索信息。

2024-10-22 14:20:06 3861 1

原创 LLM之RAG实战（四十四）| rag-chatbot：支持Huggingface和Ollama任意模型的多PDF本地RAG方案

Step1：把https://github.com/datvodinh/rag-chatbot/blob/main/notebooks/kaggle.ipynb脚本导入到Kaggle。大模型的配置文件：https://github.com/datvodinh/rag-chatbot/blob/main/rag_chatbot/setting/setting.py。Step2：把<YOUR_NGROK_TOKEN>替换为自己的token。脚本方式（Ollama, Ngrok, python package）

2024-10-22 10:04:11 772

01.ChatGPT技术、国产化尝试和开源模型 -公众号-torchnlp.pdf

强化学习DQN

《GAN：实战生成对抗网络》_刘梦馨.pdf

空空如也