人工智能时代_xiaoli8748_软件开发的博客-CSDN博客

人工智能时代

文章平均质量分 83

分享人工智能相关前沿技术知识

文章数：171 文章阅读量：129370 文章收藏量：1760

作者: xiaoli8748_软件开发

计算机专业

展开

【人工智能时代】-一文掌握 MCP 上下文协议：从理论到实践

每个工具的结构定义如下所示：代码语言：JSON自动换行AI代码解释{ "name": "string", // 工具唯一标识符 "description": "string", // 可选，工具描述 "inputSchema": { // 工具参数的 JSON Schema "type": "object", "properties": { ... } // 工具参数定义 } }

原创 2025-04-09 22:15:57 · 1102 阅读 · 0 评论
【人工智能时代】-MCP协议详解：一文读懂跨时代的模型上下文协议

5、通过 MCP host 进行测试，这里采用的是官方文档中构建 LLM client 的方法（也可以选择 Clauder for Desktop，只需要将之前的服务器添加到 key 中，相当于告诉 host 这里有一个用于 PoE2 补丁版本查询的 MCP 服务器）。优化 prompt 以及添加更多工具来实现更复杂的功能，比如使用更优的爬虫工具，以及通过深度爬虫爬取对应补丁的帖子，这样在回答的最新补丁版本号的同时返回具体内容。但是，与资源不同的是，工具表示可以修改状态或与外部系统交互的动态操作。

原创 2025-04-09 22:17:20 · 1154 阅读 · 0 评论
【人工智能时代】-什么是MCP？本地如何开发MCP Server

MCP（Model Context Protocol）全称模型上下文协议，是由 Anthropic 推出的一种开放标准，旨在统一大型语言模型（LLM）与外部数据源和工具之间的通信协议。掌握更多的信息控制更多的工具在没有联网搜索之前，大模型的数据来源只有训练数据的时候以及推理我们告诉他的东西。所以后来的rag、知识库都是让AI掌握更多的信息，而MCP的出现是为了让大模型控制更多的工具，赋予更多能力。在本篇文章中，基于 Python 完成了一个简单的 MCP Server 的开发。

原创 2025-04-08 21:39:30 · 1049 阅读 · 0 评论
【人工智能时代】-一文读懂 MCP！大模型如何用它连接世界，打造更智能的 AI Agent？

未来，随着大模型应用的深入，MCP Server 将变得更加丰富和强大，各类应用也将逐步适配 MCP，降低 AI 接入门槛。正如 OpenAI CEO Sam Altman 所说，2025 is。或许不久的将来，我们只需一句话，就能让 AI 远程操控电脑、管理手机，彻底改变人机交互方式。

原创 2025-03-30 20:05:13 · 955 阅读 · 0 评论
【人工智能时代】-火爆 AI 编程圈的 MCP 到底是个什么东西？

过去每个软件（比如微信、Excel）都要单独给 AI 做接口，现在 MCP 统一了标准，就像所有电器都用 USB-C 充电口，AI 一个接口就能连接所有工具。举个生活化的例子：假设你是一个班长，每天要处理很多班级事务：查班级成绩表（Excel 文件存在电脑里），收集同学反馈（微信群里聊天记录），安排值日表（在线文档）。MCP 会让 AI 更 “懂” 上下文，比如你让 AI “总结上周班会的重点”，它能自动调取会议录音、聊天记录、笔记文档，综合这些信息给你答案，而不是凭空编造。先从专业角度讲，MCP 就是。

原创 2025-04-08 19:41:09 · 348 阅读 · 0 评论
【人工智能时代】-什么是MCP？

MCP（Model Context Protocol，模型上下文协议）是一种开放协议，旨在标准化大型语言模型（LLMs）与外部数据源和工具之间的通信方式。它通过提供统一的接口，解决AI模型因数据孤岛限制而无法充分发挥潜力的问题，使得AI应用能够安全地访问和操作本地及远程数据。MCP广泛应用于构建智能IDE、扩展接口、创建AI工作流程等场景，为LLMs与所需上下文的连接提供了标准化方法。总之，MCP通过标准化和简化AI模型与外部资源的交互，为AI应用的开发和使用带来了显著的便利和效率提升。

原创 2025-04-08 19:42:12 · 380 阅读 · 0 评论
【人工智能时代】-LLM推理入门指南②：深入解析KV缓存

本文中指出注意力分数的计算在总序列长度上呈二次方扩展。然而，由于在注意力计算中进行了掩码处理，在每个生成步骤中，我们实际上可以避免重新计算过去词元的键和值，而只需计算最后生成的词元。每次计算新的键和值时，我们的确可以将它们缓存到GPU内存中以供未来重复使用，因此节省了重新计算它们时所需的浮点运算次数。掩码的主要优点是将（自）注意力机制的FLOPs需求从与总序列长度呈二次方扩展变为线性扩展。此外，我们了解了选择KV缓存会带来的额外挑战。

原创 2025-03-16 11:24:43 · 587 阅读 · 0 评论
【人工智能时代】-LLM推理入门指南①：文本生成的初始化与解码阶段

通过本系列内容的学习，希望帮助读者了解与LLM推理密切相关的术语，比如键-值（KV）缓存、内存带宽限制（memory-bandwidth bound）等，以便理解推理优化（量化、融合kernel、模型架构修改等）和配置（批处理大小、使用哪种GPU等）所涉及的各种技术，并最终将它们与关键的性能指标（时延、吞吐量和成本）联系起来。在下图中，我描述了一个简单的基于Transformer的解码器（图1）的主要层，用于从一系列输入词元中生成输出词元。简单起见，我们假设解码策略是模型的一部分（见图2）。

原创 2025-03-15 07:06:07 · 712 阅读 · 0 评论
【人工智能时代】-斯坦福新研究：RAG能帮助LLM更靠谱吗？

为了解决上述问题，检索增强生成（RAG）是一种常用的框架，它在LLM的提示中提供相关检索内容，获得相关信息的参考文档或数据库，并可以显著提高模型的准确性。但当语言模型内部知识与通过RAG提供的信息之间的不一致时，或者当网络结果不断变化，并且可能包含过时、错误或有害的信息时，这个问题就变得更加复杂了。当修改后的信息与模型认为合理的情况偏离得更厉害时，出现了类似的模式：偏离越不切实际，大语言模型（LLM）就越依赖于自己的预训练知识。没有上下文（即没有RAG），测试的语言模型平均只能正确回答34.7%的问题。

原创 2025-03-17 07:24:02 · 694 阅读 · 0 评论
【人工智能时代】-LLM的「母语」是什么？

token嵌入位于赤道上，主要沿x轴分布，x轴捕获语言（左英文，右中文），y轴捕捉概念，z轴提供了额外的自由度，可用于存储有关上下文、语言等的信息。作为一项稍微困难的任务，模型需要预测句子中缺失的单词。上图表示Llama-2前向传递期间，每一层输出是英语还是中文的概率，三个任务分别为：（a）从德语/法语/俄语到中文的翻译任务，（b）中文重复任务，（c）中文完形填空任务。研究人员在这里化繁为简，使用特定的提示来保证输出的唯一性，同时把Llama-2-7B的32层输出全部提取出来——一层一层一层的剥开她的心。

原创 2025-03-15 07:04:57 · 1061 阅读 · 0 评论
【人工智能时代】-从工程师视角看 “Multi-Agent as a Service (MAaaS)”

SLOs 是衡量服务性能与可靠性的关键指标，简单来说，SLOs 规定了“成功”操作与总操作的 acceptable ratio（译者注：可以接受的或合理的比例，如果这个比例高于某个预先设定的阈值，那么服务的性能就被认为是可接受的。），以及这些操作对用户体验的影响。：使用容器（如 Docker ）来打包和部署 AI Agents，确保它们在不同的环境中保持一致性，简化了 Agents 的部署（deployment）和扩展（scaling）（译者注：即增加或减少 Agents 实例的数量）过程。

原创 2025-03-14 07:47:52 · 636 阅读 · 0 评论
【人工智能时代】-企业级应用场景中，LLM 的数据特性剖析及处理对策

01。

转载 2025-03-13 07:43:16 · 794 阅读 · 0 评论
【人工智能时代】-Mamba-2: 与Transformer表现相当,速度提高了2-8倍

专门实现的SSD比Mamba优化的selective scan快2-8倍,同时允许更大(是Mamba的8倍甚至更高)的递归状态,几乎不减速。与优化的softmax注意力实现相比,SSD在序列长度2K时性能相当,在16K时快6倍。将注意力中的一些设计引入SSM,进一步改进了架构设计(第7节)。例如,引入了类似multi-head attention (MHA)的概念到SSM。

原创 2025-03-17 07:26:44 · 805 阅读 · 0 评论
【人工智能时代】-你好世界！LLM开启人形机器人新纪元

在论文中，Google Research与Everyday Robots合作开发了新的方法：利用先进的语言模型知识，使物理代理（如机器人）能够遵循高级文本指令，同时将LLM建立在特定现实世界环境可行的任务中。然后，使用基于NeRF的算法，实时构建环境的认知3D地图，完成有关对象和项目的语义信息，并在地图中定位自身，同时规划动态路径以避开障碍物。最后，它利用在Sim2Real中学到的知识，在路径上执行计划步骤，——简单来说，就是在模拟器中训练，在现实世界中实现。

原创 2025-03-18 07:54:39 · 542 阅读 · 0 评论
【人工智能时代】-用神经架构搜索给LLM瘦身，模型变小，准确度有时反而更高

评估 3、4、18、25、26、28、29 和 32 层的中间大小为 s = 5504 且其它层的中间大小为 s = 11008 的网络架构，得到的 ARC-c 准确度为 45.9%，与预训练 LLaMA2-7B 的准确度相当，从而验证了图 7 的结果。此外，虽然 InstaTune 会在同一次迭代中为超级网络和随机采样的子网络同时计算损失，但该团队为了降低内存使用量，选择的做法是交替地为超级网络和随机采样的子网络计算损失。因此，较小的子网络也可能取得更高的准确度，因为它选择了更好的中间大小。

原创 2025-03-17 07:25:26 · 817 阅读 · 0 评论
【人工智能时代】-生成式 AI 的下一阶段将走向何方？

对于微软来说，他们的计划是将人工智能嵌入到一切中，包括他们的 365 Office 工具套件、必应搜索引擎、基于网络的应用程序和 Xbox 游戏机，以及最重要的，他们的 Windows 操作系统。因此，如果你想在人工智能的帮助下写作，你不需要一个新的人工智能写作应用程序，因为它已经包含在微软的 Word 工具中了。我相信会有更好的词出现。最近，红杉（Sequoia）的一篇文章[1]，伊桑-莫利克（Ethan Mollick）的一篇文章[2]等都表明，变革之风正盛，我们正处于 Gen AI 故事的第二幕。

原创 2025-03-13 07:44:20 · 769 阅读 · 0 评论
【人工智能时代】-高质量数据不够用，合成数据是打开 AGI 大门的金钥匙吗？

现代大语言模型（LLMs）的一个关键事实可概括总结为：数据为王。人工智能模型的行为很大程度上取决于其训练所用的数据集；其他细节（诸如模型架构等），只是为数据集提供计算能力的一种手段。拥有一份干净的、高品质的数据集，其价值不可估量。[1]数据的重要地位在人工智能行业的商业实践（AI business practice）中可见一斑。OpenAI 近期宣布与 Axel Springer、Elsevier、美联社及其它内容出版商和媒体巨头达成数据合作；

转载 2025-03-13 07:49:48 · 671 阅读 · 0 评论
【人工智能时代】-吃瓜Llama3-V之余，看多模态大模型架构演变！

使用定制设计的层（例如自定义交叉注意力层或其他特定层）在模型的内部层进行多模态输入的深度融合。

原创 2025-03-18 07:55:51 · 876 阅读 · 0 评论
【人工智能时代】-LLM 推理优化探微 (4) ：模型性能瓶颈分类及优化策略

对于需要达到与 Ahead of Time (AOT) 编译（译者注：AOT 编译通常会将所有内容固定为静态，不允许在程序运行时期进行灵活调整）不兼容的灵活性要求（例如，dynamic tensor shapes（译者注：在模型运行过程中，张量的维度和大小可能会根据输入数据或其他因素而变化）、control flow（译者注：在程序运行时期可以根据输入数据或其他条件动态地改变程序的执行路径）等）， just-in-time（JIT）编译器可以在执行前对模型代码进行动态优化（但不如 AOT 编译器彻底）。

原创 2025-03-12 20:43:32 · 1011 阅读 · 0 评论
【人工智能时代】-理性看待、正确理解AI中的 Scaling “laws”

在这种模式中，物种的形态在长时间的稳定期（equilibrium）之后，会经历短暂的、快速的形态变化（punctuation），这些变化可能伴随着物种的灭绝和新物种的产生。在过去的一年中，大部分开发工作都集中于在保持一定能力的前提下，开发更小的模型 5。如果模型在处理特定任务或进行外推（extrapolation）时存在困难，那么这些困难将成为限制 LLMs 能力的主要因素，而不是样本数据的使用效率（译者注：sample efficiency，指的是模型在训练过程中使用最少的数据量就能达到良好性能的能力。

转载 2025-03-14 07:47:17 · 566 阅读 · 0 评论
【人工智能时代】-LLM推理入门指南③：剖析模型性能

典型的AOT编译器工作流程是：跟踪来自支持框架（如PyTorch、TensorFlow、MXNet等）的代码，将计算图提取到中间表示（IR）中，应用与硬件无关的优化（如代数重写、循环展开loop unrolling、算子融合等）生成优化后的图形，最后为目标硬件创建可部署的工件，包括硬件感知优化（选择最合适的内核、数据移动优化等）。为了使这种联系更明显，吞吐量更精确地表示为每个芯片-秒（chip-second）的请求数量，每个请求的芯片秒数越低，即吞吐量越高，成本效率越高（参见[9]第4节）。

原创 2025-03-16 11:25:46 · 903 阅读 · 0 评论
【人工智能时代】-LLM 推理优化探微 (2) ：Transformer 模型 KV 缓存技术详解

假设有一批输入序列（input sequences），数量为 b 个，每个序列由 N 个生成的 tokens 和 t 个输入的 tokens （总长度为N+t）组成，对于这些序列的前 t+N-1 个 tokens，计算 KV 值是冗余的，也就是说，在生成步骤的第 N 步，我们可以为每个序列节省 t+N-1 次 KV 计算。由于在注意力计算中使用了 masking 技术，在每一步生成步骤中，实际上都可以不用重新计算过去 tokens 的键向量和值向量，只需计算最后生成的 token 的键向量和值向量。

原创 2025-03-12 20:21:47 · 261 阅读 · 1 评论
【人工智能时代】-LLM 推理优化探微 (3) ：如何有效控制 KV 缓存的内存占用，优化推理速度？

每个张量参数（tensor parameter）所需的空间取决于精度（precision）：全精度（FP32）为 4 字节/参数，半精度（BF16、FP16）为 2 字节/参数，8 位（bit）数据类型（INT8、FP8）为 1 字节/参数，等等。由于模型权重和不断增长的 KV 缓存都必须在每次前向传递（forward pass）时加载，解码步骤涉及非常大的数据传输，正如我们将在接下来的文章中看到的那样，实际上是受内存带宽限制的，也就是说，我们实际上花在移动数据上的时间要多于做有用工作（即计算）的时间。

原创 2025-03-12 20:21:28 · 57 阅读 · 0 评论
【人工智能时代】-为什么你的RAG不起作用？失败的主要原因和解决方案

我们正在见证AI的新时代的到来。这个时代的新颖之处不在于NLP和语言模型的出现，而是现成技术降低了企业利用自然语言技术针对他们特定用例的门槛。但是，我们还要清楚的认识到，目前这项技术仍处于早期开发阶段，在为你的AI构建RAG时，其实是在构建一个复杂的搜索引擎，这是可行的，但是要认识到这里的复杂性和挑战并解决这些问题才能让我们向成功迈出第一步。

原创 2025-03-11 07:51:18 · 336 阅读 · 0 评论
【人工智能时代】-一文看懂RAG：大语言模型落地应用的未来原创

RAG中的增强技术是RAG框架的第三个核心组件，它的作用是进一步提升生成的质量和效果，以确保生成的文本或回答准确、相关且合乎要求。挑战识别和解决：未来的研究可以致力于识别和解决RAG技术面临的挑战，特别是在知识检索、生成文本质量和多模态支持方面的挑战。未来的研究将继续探索新的方法和技术，以不断改进和扩展RAG系统的功能和性能，从而更好地满足各种知识密集型任务和应用场景的需求。生成是检索增强生成（RAG）框架的另一个核心组件，它负责根据检索到的信息和用户查询生成最终的文本或回答。

原创 2025-03-10 20:35:48 · 801 阅读 · 0 评论
【人工智能时代】-RAG案例：密西西比大学利用LLM提升高校信息获取体验

BARKPLUG V.2系统建立在大型语言模型(LLM)的基础上，采用检索增强生成(RAG)技术。LLM通过大规模数据预训练，可以生成连贯、自然的语言。然而，LLM在特定领域的问题回答上存在局限，容易产生幻觉。RAG技术通过检索外部数据集，增强LLM的上下文理解，提升生成回答的相关性。因此，BARKPLUG V.2系统整合了LLM和RAG技术，有效提升了对高校资源信息回答的准确性。

原创 2025-03-10 20:43:05 · 588 阅读 · 0 评论
【人工智能时代】-RAG：Langchain中使用自己的LLM大模型

首先我们去huggingface官网注册一个账号（如果打不开网页需要使用VPN），然后在用户头像那里，点击Settings，再点击Access Tokens，在里面设置。根据报错信息可以看到是没有提供token，token就是在huggingface官网上每个账号的标识，根据token可以追溯到账号。如果对内容有什么疑问和建议可以私信和留言，也可以添加我加入大模型交流群，一起讨论大模型在创作、RAG和agent中的应用。注释第一个红框标红的代码，在第二个红框输入对应内容，就完美解决啦。

原创 2025-03-11 07:52:26 · 135 阅读 · 0 评论
【人工智能时代】-“烧钱”的大模型：初探成本拆解与推理优化方法

直到2022年11月我们看到ChatGPT时，高潮出现了，并且在2023年3月的GPT-4发布时达到了第二波高潮，此时即使是原来对AI最怀疑的人也会对当下神经网络的能力感到惊讶。通过将浮点数转换为较低精度的整数，模型量化可以在不实质性损失模型性能的情况下实现显著的内存节省和更快的计算速度。此外，还要考虑到数据需要进行清洗、标记、组织和存储，考虑到LLM的规模，数据管理和处理成本会迅速增加，特别是考虑到这些任务所需的基础设施、工具和数据工程师时。考虑到大语言模型训练和推理的高成本，人们可能会产生这样的疑问。

原创 2025-03-12 07:57:43 · 418 阅读 · 0 评论
【人工智能时代】-LLM 推理优化探微 (1) ：Transformer 解码器的推理过程详解

希望在本系列博客结束时，各位读者能够理解与 LLM 推理相关的术语，如键-值 (KV) 缓存、内存带宽约束（memory-bandwidth bound）等，能够理解各种推理优化（模型量化（quantization）、内核融合（fused kernels）、模型架构修改（model architecture modifications）等）和配置（batch size、使用哪种 GPU 等）技术，最后能够将它们与延迟、吞吐量和成本等关键性能指标联系起来。），以获取生成的文本（图5）。正如我们将看到的那样，

原创 2025-03-12 08:00:38 · 389 阅读 · 0 评论
【人工智能时代】-借助知识图谱和Llama-Index实现基于大模型的RAG

对于语言模型（LLM）幻觉，知识图谱被证明优于向量数据库。知识图谱提供更准确、多样化、有趣、逻辑和一致的信息，减少了LLM中出现幻觉的可能性。这种优越性源于它们能够提供关于实体之间关系的精确细节，而不仅仅是表示相似性，支持更复杂的查询和逻辑推理。向量数据库以其数字数组在相似性搜索和最佳匹配场景中表现出色。最终，两者之间的选择取决于项目的需求，包括数据的性质、关系探索的需要以及预期的查询类型。

原创 2025-03-10 21:21:10 · 831 阅读 · 0 评论
【人工智能时代】-进阶RAG-提升RAG效果

在本博客中，我将解决这些挑战，更重要的是，我们将深入研究提高RAG性能的解决方案，使其可用于生产环境。它也被称为“混合搜索”。这种方法利用每种方法的特定优势来适应不同的查询类型和信息需求，确保对高度相关和上下文丰富的信息进行一致的检索。检索文档中的噪声会对RAG性能产生不利影响，因此，与查询最相关的信息可能会被隐藏在包含大量不相关文本的文档中。如果文档块太小，它可能不包含LLM回答用户查询所需的所有信息，如果块太大，则可能包含太多不相关的信息，这会使LLM感到困惑，或者可能太大而无法适应上下文大小。

原创 2025-03-10 20:38:30 · 815 阅读 · 0 评论
【人工智能时代】-大模型的“Lost in the middle”现象探究

本文通过一系列对照实验，深入研究了LLM如何处理长输入上下文。实验结果显示，当相关信息的位置发生变化时，语言模型的性能会显著下降，这表明模型在处理长输入上下文时，难以稳定地获取和使用信息。特别是当模型需要在长输入上下文的中间部分使用信息时，性能通常最低。同时作者也做了一系列实验来探究模型架构、query和文档的相对顺序、指令微调这三个因素对LLM使用长上下文的影响。最后，通过一个开放领域问答的实际案例研究，研究者发现LLM的性能并不会随着相关文档的增加而显著改善。

原创 2025-03-12 07:55:54 · 580 阅读 · 0 评论
【人工智能时代】-RAG流程优化（微调）的4个基本策略

最后的提示构造涉及到将检索到的数据集成到模型的查询中。提示符中的微小变化会显著影响结果，使其成为一个反复试验的过程。在提示中提供示例可以引导模型获得更准确和相关的输出，提示词的修改不涉及代码的改变，所以这里我们就不进行演示了优化检索增强生成(RAG是一个迭代过程，它在很大程度上取决于应用程序的特定数据和上下文。我们探讨了四种关键优化方向:细化分块方法、选择和微调嵌入模型、选择有效的向量搜索方法以及制作精确的提示。这些组件中的每一个都在提高RAG系统的性能方面起着至关重要的作用。

原创 2025-03-10 21:10:19 · 786 阅读 · 0 评论
【人工智能时代】-12 个检索增强生成 (RAG) 工具/软件

2020 年，Meta Research 引入了 RAG 模型来精确操纵知识。Lewis 及其同事将 RAG 称为一种通用微调方法，可以将预先训练的参数内存生成模型与非参数内存结合起来。简而言之，检索增强生成（RAG）是一种自然语言处理（NLP）方法，它结合了检索和生成模型的元素，以提高生成内容的质量和相关性。这是一种混合方法，利用两种技术的优势来解决纯粹生成或纯粹基于检索的方法的局限性。RAG 模型生成的解决方案可以解决大型语言模型 (LLM) 面临的挑战。

原创 2025-03-10 20:40:49 · 648 阅读 · 0 评论
【人工智能时代】-一文读懂 Agentic RAG 数据检索范式

通常而言，RAG 赋予了语言模型获取和处理外部信息的能力，使其不再被限制在固有的知识范畴内。在 Agentic RAG 体系结构中，不再被动地响应查询请求,而是主动地分析初步检索到的信息，并基于对任务复杂性的评估，战略性地选择最为合适的工具和方法进行进一步的数据检索和处理。基于综上所述，Agentic RAG 的出现正是为了应对传统系统在复杂问题解决、信息检索效率、可解释性、知识扩展、异构集成和系统灵活性等方面的不足，为语言模型和信息检索系统赋能，使其能够以更高效、智能和透明的方式服务于人类的信息需求。

原创 2025-03-10 20:41:53 · 540 阅读 · 0 评论
【人工智能时代】-OpenAI o1 模型到来后，谈谈提示词工程的未来

提示词技术，尤其是那些你可能听过的“高级技巧[1]” —— 比如“提示词链（prompt chaining）”，“小样本学习（few-shot learning）”或“思维链（chain-of-thought）”技术，正受到关注。以 ChatGPT 为例，它具备记忆功能（能够自动保存与你相关的信息），最终将熟悉你的风格、偏好的信息来源，甚至是项目进度。随着大语言模型（LLMs）的发展（例如，从 GPT-3 到 GPT-4o，再到现在的 o1），我们与这些模型的交互方式也在发生变化。

原创 2025-03-11 20:02:52 · 361 阅读 · 0 评论
【人工智能时代】-Fine-Tuning Vs RAG ，该如何选择？

无论是回答一个特定领域的问题，还是完成专业化的文本生成任务，LLM 均能依托 RAG 的知识补给，提供更加准确、流畅、内容充实的输出，大大增强了其在特殊场景下的适用性。虽然通过微调，可以使大型语言模型"学习"特定领域的知识，但这种学习过程无法适应频繁变化的外部数据源，并且每一次模型重新训练，都需要付出极高的计算代价，效率显著低下。Fine-Tuning （微调）过程的核心，是在新的任务和数据集上对预训练模型的参数进行微小的调整，使其能精准契合目标场景的需求。这是 RAG 系统所无法提供的。

原创 2025-03-11 07:54:44 · 693 阅读 · 0 评论
【人工智能时代】-零基础人员如何入门AI？这是一份给你的学习路径指南

AI是一个非常广阔的领域，但是是有其基础的运作机制的。在你已经熟悉AI的基本操作和定制化应用之后，可能还是会感觉AI只能充当流程中的一环，无法形成一套完整的“闭环”（比如：无法根据输入的信息，执行不同的操作）。知识库：同上，由于AI的回答来源于训练集，当我们需要限制AI只能在指定内容的基础上进行回答（这样的要求在一些像客服问答服务上很常见），就需要给AI指定知识库。感受AI能力边界，即可以做什么、不可以做什么（需要说明的是，这个认知范围会随着你对AI的了解而不断变化，但建立这个边界本身是必要的）。

原创 2025-03-10 17:20:03 · 310 阅读 · 0 评论
【人工智能时代】-使用 Gemma 2 构建 RAG的全过程（ Ollama 或 Hugginface ）

Hi，这里是Aitrainee，欢迎阅读本期新文章。没错，这两天关于9B、27B开源的消息又刷屏了，如果你还不知道的话，可以搜搜看看，还是挺不错的。▲ 从这组官方的对比数据看出，能力已经力压llama3，甚至gemma:27b的能力也接近了llama3 70b，看来模型真的是在往小了发展，越来越接地气，我们老百姓的普通电脑配置也能跑起来！既然老百姓的普通电脑都能跑了（9B），那我们就介绍。

原创 2025-03-10 18:18:45 · 196 阅读 · 0 评论
【人工智能时代】-GraphRAG：终极 RAG 引擎 - 语义搜索、嵌入、矢量搜索等等！

GraphRAG 是一个旨在利用大语言模型（LLMs）从非结构化文本中提取结构化数据的数据处理工具套件。要了解更多关于 GraphRAG 及其如何增强 LLM 处理私有数据能力的信息，请访问微软研究博客文章.

原创 2025-03-10 20:03:02 · 334 阅读 · 0 评论

人工智能时代

作者: xiaoli8748_软件开发

【人工智能时代】-一文掌握 MCP 上下文协议：从理论到实践

【人工智能时代】-MCP协议详解：一文读懂跨时代的模型上下文协议

【人工智能时代】-什么是MCP？本地如何开发MCP Server

【人工智能时代】-一文读懂 MCP！大模型如何用它连接世界，打造更智能的 AI Agent？

【人工智能时代】-火爆 AI 编程圈的 MCP 到底是个什么东西？

【人工智能时代】-什么是MCP？

【人工智能时代】-LLM推理入门指南②：深入解析KV缓存

【人工智能时代】-LLM推理入门指南①：文本生成的初始化与解码阶段

【人工智能时代】-斯坦福新研究：RAG能帮助LLM更靠谱吗？

【人工智能时代】-LLM的「母语」是什么？

【人工智能时代】-从工程师视角看 “Multi-Agent as a Service (MAaaS)”

【人工智能时代】-企业级应用场景中，LLM 的数据特性剖析及处理对策

【人工智能时代】-Mamba-2: 与Transformer表现相当,速度提高了2-8倍

【人工智能时代】-你好世界！LLM开启人形机器人新纪元

【人工智能时代】-用神经架构搜索给LLM瘦身，模型变小，准确度有时反而更高

【人工智能时代】-生成式 AI 的下一阶段将走向何方？

【人工智能时代】-高质量数据不够用，合成数据是打开 AGI 大门的金钥匙吗？

【人工智能时代】-吃瓜Llama3-V之余，看多模态大模型架构演变！

【人工智能时代】-LLM 推理优化探微 (4) ：模型性能瓶颈分类及优化策略

【人工智能时代】-理性看待、正确理解AI中的 Scaling “laws”

【人工智能时代】-LLM推理入门指南③：剖析模型性能

【人工智能时代】-LLM 推理优化探微 (2) ：Transformer 模型 KV 缓存技术详解

【人工智能时代】-LLM 推理优化探微 (3) ：如何有效控制 KV 缓存的内存占用，优化推理速度？

【人工智能时代】-为什么你的RAG不起作用？失败的主要原因和解决方案

【人工智能时代】-一文看懂RAG：大语言模型落地应用的未来 原创

【人工智能时代】-RAG案例：密西西比大学利用LLM提升高校信息获取体验

【人工智能时代】-RAG：Langchain中使用自己的LLM大模型

【人工智能时代】-“烧钱”的大模型：初探成本拆解与推理优化方法

【人工智能时代】-LLM 推理优化探微 (1) ：Transformer 解码器的推理过程详解

【人工智能时代】-借助知识图谱和Llama-Index实现基于大模型的RAG

【人工智能时代】-进阶RAG-提升RAG效果

【人工智能时代】-大模型的“Lost in the middle”现象探究

【人工智能时代】-RAG流程优化（微调）的4个基本策略

【人工智能时代】-12 个检索增强生成 (RAG) 工具/软件

【人工智能时代】-一文读懂 Agentic RAG 数据检索范式

【人工智能时代】-OpenAI o1 模型到来后，谈谈提示词工程的未来

【人工智能时代】-Fine-Tuning Vs RAG ，该如何选择？

【人工智能时代】-零基础人员如何入门AI？这是一份给你的学习路径指南

【人工智能时代】-使用 Gemma 2 构建 RAG的全过程（ Ollama 或 Hugginface ）

【人工智能时代】-GraphRAG：终极 RAG 引擎 - 语义搜索、嵌入、矢量搜索等等！

【人工智能时代】-一文看懂RAG：大语言模型落地应用的未来原创