检索增强生成 (RAG) 是 2025 年人工智能领域的热门话题之一。这些系统将相关知识检索与大型语言模型 (LLM) 相结合,通过将生成的输出基于外部知识源,而非仅仅依赖于 LLM 训练期间从文本数据中学习到的信息,从而能够对用户查询(提示)提供更准确、最新且可验证的响应。然而,构建可用于生产的 RAG 系统需要仔细考量,并面临自身的挑战。
本文列出了 AI 开发者社区在构建 RAG 系统中汲取并讨论的五个关键经验教训。
1. 信息检索质量胜过数量
早期的 RAG 实现在检索阶段主要注重数量而非质量,这意味着它们的目标是检索大量与用户查询匹配的内容。然而,实验研究表明,检索质量远比数量更重要。在大多数情况下,检索数量较少但相关性更高的文档的 RAG 系统的表现优于那些试图检索尽可能多的上下文的系统,这导致信息过剩,其中很多信息可能相关性不够。检索质量需要投入精力构建有效的文本嵌入模型和基于相关性的高级排序算法,以决定要检索的内容。使用精确度、召回率和 F1 分数等指标来评估检索性能,可以进一步帮助提高检索质量。
TL;DR → 质量重于数量:优先检索较少但高度相关的文档,以提高输出准确性。
2. 上下文窗口长度至关重要
有效管理 RAG 系统中的上下文窗口(即 LLM 在生成过程中一次可以处理的有限文本量)对于构建性能卓越的 RAG 系统至关重要。由于系统生成器端的 LLM 倾向于更关注上下文的开头和结尾部分,因此简单地串联检索到的文档可能会导致次优结果&#