从检索到生成:RAG 如何重构大模型的知识边界?

目录

一、技术演进图谱说明

二、RAG 技术概述

(一)核心思想说明

(二)RAG 发展路径与研究范式

三、Naive RAG:最基础的检索增强生成范式

(一)Naive RAG 的标准流程

1. 索引(Indexing)

2. 检索(Retrieval)

3. 生成(Generation)

(二)Naive RAG 的问题与挑战

1. 检索阶段的问题

2. 生成阶段的问题

3. 增强整合的难点

(三)思考

四、Advanced RAG:应对基础范式局限的智能增强

(一)概念与特征

(二)Advanced RAG 定位

(三)典型优势与改进方向

五、Modular RAG:从“方法”向“平台”级演进

(一)核心理念与特点

(二)Modular RAG 结构布局

(三)实际优势与应用价值

(四)🔍 三阶段 RAG 模型对比表

六、🥊 RAG vs Fine-tuning:两种提升 LLM 能力的对比分析

(一)📚 方法概述

(二)🔍 举例说明

1. 适合 RAG 的场景

2. 适合微调的场景

(三)⚖️ 组合使用:互为补充的策略

(四)✅ 总结建议

七、总结与趋势展望


干货分享,感谢您的阅读!

随着大语言模型(LLM)在自然语言处理任务中表现出惊人的能力,基于 LLM 构建的智能问答系统、对话机器人、搜索引擎等应用迅速兴起。然而,在实际场景中,用户提出的问题往往涉及最新知识、专业文档或个性化上下文,这些信息可能并未出现在模型的预训练语料中,从而导致模型生成结果出现“幻觉”或过时内容,严重影响可用性与可信度。

面对这一关键痛点,Retrieval-Augmented Generation(RAG) 被提出,试图将信息检索与语言生成相结合:先基于用户查询检索相关文档,再将其与原始问题一同输入语言模型生成答案。RAG 不仅显著降低了幻觉率,还具备知识可更新、输出可追溯等优势,成为行业探索 LLM 实用化路径的重要方向。

随着技术演进,RAG 从最初的 Naive RAG(朴素式检索增强)逐步演变出更复杂的架构,如 Advanced RAG(增强模块协同)与 Modular RAG(平台化组件解耦)。每一阶段的演进,都是对模型幻觉、检索能力、上下文融合质量等问题的深度回应,也体现了从原型验证向工业级落地架构的转变。

本文将系统梳理 RAG 的三大演进阶段,剖析其核心思想、技术架构与实践挑战,并通过图示与对比,帮助读者全面理解 RAG 技术的发展脉络与未来趋势。

一、技术演进图谱说明

如下 RAG 技术树(Technology Tree)图,其概括了 RAG 的发展路径:

  • 初期阶段:以 Transformer 结构为基础,主要是在预训练模型(PTM)中尝试引入外部知识,但手段较为简单。
  • 中期阶段:ChatGPT 出现后,RAG 技术开始强调如何在推理过程中为 LLM 提供更有效的外部信息支持,开始大规模应用。
  • 近期趋势:研究逐渐扩展至在语言模型的"微调阶段(fine-tuning)预训练阶段(pre-training)"引入检索机制,追求更高程度的知识融合和生成效果提升。

这张技术树不仅展示了 RAG 的发展历程,还从三个关键阶段(预训练、微调、推理)展现了技术的演进轨迹。

二、RAG 技术概述

(一)核心思想说明

RAG(Retrieval-Augmented Generation)技术的核心思想是:通过引入外部知识库的信息,帮助大语言模型(LLM)回答其训练数据中未涉及的问题,尤其是在处理实时性强或专业性高的查询时,弥补其知识盲区。

我们可以用一个具体例子来说明 RAG 的作用:假设用户向 ChatGPT 询问某条最近的新闻,由于 ChatGPT 本身的知识仅限于其训练数据,它无法获知最新进展。这时,RAG 机制就介入,通过检索当前的相关新闻文章,将相关内容作为上下文和用户的问题一起输入给大模型,从而使其生成出更全面、更准确的回答。

(二)RAG 发展路径与研究范式

RAG 研究的发展经历了三个主要阶段:

  1. Naive RAG(初代 RAG):最基础的实现方式,通常只在模型推理阶段加入检索模块,直接将检索到的文档拼接到输入中。这种方式实现简单、成本较低,但在效果和稳定性方面存在明显短板。

  2. Advanced RAG(增强型 RAG):为克服初代 RAG 的局限性,研究者开始在多个方面进行改进,比如更智能的检索策略、更高质量的文本选择机制,甚至对生成阶段进行适配优化,提升整体效果。

  3. Modular RAG(模块化 RAG):发展到这一阶段,RAG 被设计为更加可组合、可配置的系统,各个模块(如检索器、过滤器、重排序器、生成器)之间协同工作,允许更灵活地适配不同任务需求,并提升系统的可解释性和扩展性。

尽管 RAG 技术相较于单纯的 LLM 能力有显著提升,也更加高效,但每种范式在实际应用中也面临不同的挑战。因此,后续的发展不断在追求更强性能的同时,也在探索更优架构与使用方式。

三、Naive RAG:最基础的检索增强生成范式

Naive RAG 是最早期、最直接的一种 RAG 实现方式,它随着 ChatGPT 等大语言模型的大规模应用而迅速流行起来。该范式的核心流程可以用“检索—阅读(Retrieve-Read)”框架来概括,整个过程分为三个主要阶段:索引、检索、生成,其代表性流程如图 2所示:

(一)Naive RAG 的标准流程

图中展示了 RAG 在问答场景中的典型应用流程,主要包括以下三个步骤:

1. 索引(Indexing)

  • 首先对原始资料(如 PDF、HTML、Word、Markdown 等)进行解析和清洗。
  • 将内容统一转为纯文本后,根据语言模型的上下文长度限制进行切分(chunking),形成若干段落块。
  • 每个段落块被转化为向量(embedding),并存储到向量数据库中,为后续的语义检索做准备。

2. 检索(Retrieval)

  • 用户输入查询问题后,系统使用与索引阶段相同的向量编码器,将问题转换为向量表示。
  • 通过计算问题向量与数据库中段落块向量之间的语义相似度,选出前 K 个最相关的文本块。
  • 这些检索结果将作为扩展上下文,用于辅助回答问题。

3. 生成(Generation)

  • 将用户问题与检索到的段落内容拼接成一个完整提示词(prompt),输入大语言模型进行回答生成。
  • 生成阶段的表现会因具体任务设定而异,有些情况下模型会综合使用自身知识与检索信息,有时则会限制只使用提供的文本。
  • 若是多轮对话,还可将历史对话上下文一并加入,以保持交互的连贯性。

(二)Naive RAG 的问题与挑战

尽管 Naive RAG 实现简单、成本较低,并能在一定程度上提升大模型的回答准确性,但在实际应用中也暴露出不少问题:

1. 检索阶段的问题

  • 召回不足:可能遗漏关键信息,导致生成阶段缺乏有效依据。
  • 误召回:检索到不相关或干扰性段落,影响回答质量。
  • 向量表示过于粗糙:不能充分捕捉上下文语义,影响精度。

2. 生成阶段的问题

  • 幻觉现象(Hallucination):模型可能生成与检索内容不符的信息,产生虚假回答。
  • 回答偏离主题:当上下文不够相关时,输出容易跑题或失焦。
  • 内容不当或偏见:可能带有不合适的表达,降低可信度。

3. 增强整合的难点

  • 冗余:不同来源段落含义重复,生成内容出现重复表达。
  • 风格不一致:不同片段之间写作风格、语气差异大,生成结果不够连贯。
  • 信息整合困难:模型难以有效判断哪些段落更重要,或如何将多个片段有效融合。
  • 简单拼接缺乏加工:生成模型有时过度依赖检索内容,结果变成对原文的“复制粘贴”,缺少进一步加工和总结。

此外,在复杂任务中,一次基于原始问题的检索可能无法覆盖所有关键信息,需要多轮迭代才能获取足够上下文。这也暴露出 Naive RAG 在应对复杂场景时的局限性。

(三)思考

Naive RAG 是构建 RAG 系统的基础形态,其“索引-检索-生成”三步流程为后续的高级和模块化 RAG 提供了原型框架。然而,随着对生成质量、稳定性和适配性的要求提升,它的诸多不足也促使研究者进一步探索更智能的改进方案。

接下来的 Advanced RAG 和 Modular RAG,正是在解决 Naive RAG 局限性的基础上演化而来的。

四、Advanced RAG:应对基础范式局限的智能增强

Advanced RAG 是在 Naive RAG 的基础上发展而来的一种更智能、结构更优化的检索增强生成方式。其提出的初衷,就是为了解决 Naive RAG 在检索精度、生成质量以及信息整合等方面存在的多项不足。

相比于简单的“Retrieve-Read”框架,Advanced RAG 更注重提升系统对查询意图的理解、多轮检索策略的设计,以及上下文融合的能力,目标是构建更稳健、更准确、更具实用性的 RAG 流程。

(一)概念与特征

Advanced RAG 引入了多个关键增强机制,使得模型能够更主动地适配复杂任务场景。相较于传统的“Retrieve-Read”流程,它在以下方面实现了进化:

  • 查询重写(Query Reformulation):用户初始问题可能存在歧义或信息不足,Advanced RAG 会利用语言模型对原始查询进行优化重写,提升检索精度。
  • 多轮检索(Multi-stage Retrieval):不再满足于单次 Top-K 相似度匹配,系统支持级联检索、重排序、跨步补全等方式,多角度提取相关信息。
  • 上下文融合(Context Fusion):在生成阶段引入信息整合模块,对多个检索片段进行聚合、去重、权重评估等处理,保障生成内容结构清晰、内容不冗余。
  • 动态控制生成行为(Response Control):根据不同任务目标,模型可设定只依赖检索信息、结合模型内知识,或引入对话上下文进行多轮响应。

(二)Advanced RAG 定位

从图中可以看出,Advanced RAG 相较 Naive RAG 拓展出了更多模块交互路径,体现其处理流程的复杂度与灵活性:

  • 多个模块(如 Query Reformulator、Retriever、Context Selector)之间建立了非线性连接与反馈路径
  • 图中清晰标示了从单轮检索向多阶段协同增强结构的演化趋势;
  • Advanced RAG 模块密度增多,代表功能能力增强,推动整体问答效果从“依赖检索结果”向“融合多源上下文与语言模型知识”过渡。

该阶段的核心目标是:通过结构增强与控制能力,提升信息检索与生成过程的精度、稳定性与适应性。

(三)典型优势与改进方向

类别Naive RAGAdvanced RAG 的改进
检索精度单轮粗粒度匹配引入查询重写 + 多轮检索机制
上下文结构简单拼接融合聚合、去重、重要性排序
响应内容易产生幻觉与冗余强化事实对齐与生成控制能力
多轮对话支持可整合历史上下文,支持多轮

通过上述优化,Advanced RAG 在搜索增强问答系统中显著提升了可用性与实用性,逐渐成为企业级落地的首选方案。

五、Modular RAG:从“方法”向“平台”级演进

随着 RAG 技术在真实应用场景中的逐渐落地,系统对可扩展性、可维护性、任务适配能力等提出了更高要求。这一背景下,Modular RAG(模块化 RAG) 作为 RAG 研究范式的最新阶段应运而生。它不仅延续了 Advanced RAG 的多轮增强思路,还进一步将各个组件进行解耦与模块化,实现更高的灵活性、可控性与可组合性。

(一)核心理念与特点

Modular RAG 的主要思想是将传统 RAG 系统中紧耦合的流程,重构为若干独立、可插拔的模块(Module),每个模块专注完成特定任务,如查询生成、检索排序、文档聚合、响应风格控制等。模块之间通过统一的接口协议协同工作,从而形成高度可配置与适配的生成系统

其显著特点包括:

  • 结构解耦:各环节(如 Query Reformulation、Retriever、Ranker、Fusion、Response Generator)均可独立部署、训练、优化,适配不同需求。
  • 任务定制化能力强:开发者可以按需组合模块,打造适用于摘要生成、问答、对话等不同任务的专属 RAG 流程。
  • 可观测与可调试性好:每个模块输入输出清晰、便于可视化追踪,有利于调优与问题定位。
  • 支持多模型协同:不同模块可调用不同类型的语言模型、检索器或评估器,实现多模型融合、增强系统鲁棒性。

这种模块化架构,类似于搭建“乐高式”生成系统,让开发者能够灵活构建和调度最适合当前场景的 RAG 流程。

(二)Modular RAG 结构布局

Modular RAG 作为演化终点,展现了最复杂、最灵活的结构布局

  • 图中体现了各模块之间的高度并行、交错连接,打破了原有串行线性流程;
  • 除了基础的 Indexer、Retriever、Generator 外,还引入了 Query Optimizer、Selector、Fusion、Evaluator 等多个中间环节;
  • 整体呈现出一个可扩展的 DAG(有向无环图)结构,表明模块之间既有主流程连接,也支持分支协同与并行优化;
  • 模块之间的边界清晰,可实现动态路由与任务切换,体现了系统的可组合性与智能调度能力。

图示反映出 Modular RAG 不再是单一流程上的“增强”,而是具备全局架构设计与调度能力的“生成框架”。

(三)实际优势与应用价值

维度Advanced RAGModular RAG 的提升
系统结构增强但仍是串行结构完全模块化解耦,支持 DAG 式组合
任务泛化能力适配部分场景适用于任意复杂问答 / 对话 / 摘要
训练与调试部分模块可单独训练支持模块级迭代、快速调优
多模态支持初步探索模块级扩展支持图文多模态任务
商业部署中等复杂度高灵活性 + 易部署 + 易维护

Modular RAG 的提出,标志着 RAG 从“方法”向“平台”级演进。它不仅提升了信息检索增强生成系统的性能,更为构建通用智能助理、企业级问答引擎、多模态 AI 系统打下了坚实的架构基础。

(四)🔍 三阶段 RAG 模型对比表

对比维度Naive RAGAdvanced RAGModular RAG
架构形式简单线性流程(检索 → 生成)增强型流水线(多轮检索 + rerank + 融合)模块解耦结构,DAG 式自由组合
关键模块Indexer、Retriever、Generator加入 Query Reformulation、Reranker、Fusion 等增强组件每个子任务独立模块化,如 Selector、Evaluator、Prompt Optimizer 等
查询处理能力原始 Query 单轮检索多轮 Query 优化与重写支持多路径、多策略并行检索与融合
检索增强方式Top-k 相似度排序语义优化、重排序、动态融合自定义检索策略与模块组合,灵活调度多模检索器
生成效果控制靠 LLM 内部机制提供更多上下文辅助生成可引入控制模块限制风格、格式、可信度
优势简洁、高效、易部署性能显著提升、适配复杂任务灵活可控、高扩展性、便于调试和演进
局限性易检索错漏、幻觉严重多组件协同复杂,调优成本上升架构设计复杂、初始投入高
适用场景简单问答、静态文档检索多轮问答、企业搜索引擎需要强适配性和可维护性的复杂应用(如多语言、多模态问答系统)
图示特征(图3)三步直线流程多组件串联增强流程模块化分支结构,模块间连接灵活

六、🥊 RAG vs Fine-tuning:两种提升 LLM 能力的对比分析

在增强大型语言模型(LLMs)知识覆盖与任务适应性的实践中,Retrieval-Augmented Generation(RAG)Fine-tuning(微调) 是两种主流手段。它们虽然目标相似,但方法截然不同,各有优势和适配场景。

(一)📚 方法概述

对比维度RAG(检索增强生成)Fine-tuning(微调)
核心思路在生成前动态检索外部知识,实时构造上下文输入在训练阶段通过监督学习调整模型内部参数
数据来源外部知识库、数据库、网页、文档等精选标注数据集(需涵盖目标任务知识)
模型调整方式模型结构不变,知识更新靠检索数据更新模型结构内部权重调整
知识更新快速、灵活:更新数据即可缓慢:需重新训练和部署
适配任务类型长尾知识、时效性强、变化频繁的任务高精度、重复性强的特定任务
成本与效率成本低,迭代快成本高,需GPU资源,训练周期长
可解释性高:可追踪检索内容低:参数黑箱,难以定位生成依据
偏差风险取决于检索数据质量容易继承训练数据的偏差或标注误差

(二)🔍 举例说明

1. 适合 RAG 的场景

  • 问答系统需实时访问最新新闻资讯;
  • 企业内部知识库接入,如员工手册、合规文档;
  • 多模态/多源数据集成,如图文、网页、PDF 混合输入。

2. 适合微调的场景

  • 客服机器人固定应答风格;
  • 法律合同自动分析器;
  • 医疗诊断报告生成器。

(三)⚖️ 组合使用:互为补充的策略

RAG 和微调并非非此即彼。许多系统采用 先微调后 RAGRAG+LoRA 微调融合方案,实现效果和效率的双赢。例如:

  • 对 LLM 做轻量微调(如 LoRA)强化任务能力;
  • 再通过 RAG 动态接入更新文档或异构数据源;
  • 输出结果既有上下文精度,又具备最新知识支持。

(四)✅ 总结建议

应用场景优先策略
快速接入、频繁更新、实时回答✅ 使用 RAG
特定格式要求、精准分类、风格控制✅ 使用 Fine-tuning
有一定模板但内容依赖实时数据✅ 结合两者使用

七、总结与趋势展望

回顾 RAG 技术的发展路径,我们可以看到其从早期的 Naive RAG 到 Advanced RAG,再到 Modular RAG,经历了从轻量集成到智能增强、再到模块平台化的逐步演进。

  • Naive RAG 适合中小型项目快速试验,优势是实现简单,缺点是检索与生成能力有限;
  • Advanced RAG 更适合对生成质量和用户交互要求较高的场景,通过增强结构提高生成效果;
  • Modular RAG 则为大规模、长期维护的系统提供了解耦架构,具备更强的适配性与工业可用性。

未来,随着多模态信息融合、Agent 规划与知识图谱集成等方向的发展,RAG 有望成为通用智能系统中不可或缺的组件。

八、📚 参考文献与延伸阅读(References & Further Reading)

  1. Lewis, P. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks.
    Advances in Neural Information Processing Systems (NeurIPS), vol. 33, pp. 9459–9474.
    📎 原始论文链接

  2. Borgeaud, S. et al. (2022). Improving Language Models by Retrieving from Trillions of Tokens.
    International Conference on Machine Learning (ICML), PMLR.
    📎 论文地址

  3. Arora, D. et al. (2023). GAR-Meets-RAG: A Paradigm for Zero-Shot Information Retrieval.
    arXiv preprint arXiv:2310.20158.
    📎 arXiv 链接

  4. Gao, Y. et al. (2023). Retrieval-Augmented Generation for Large Language Models: A Survey.
    Shanghai Research Institute for Intelligent Autonomous Systems & Fudan University.
    📎 论文概览

  5. Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback (InstructGPT).
    NeurIPS, vol. 35, pp. 27730–27744.
    📎 arXiv 链接

  6. Ma, X. et al. (2023). Query Rewriting for Retrieval-Augmented Large Language Models.
    arXiv preprint arXiv:2305.14283.
    📎 arXiv 链接

  7. Ilin, I. (2023). Advanced RAG Techniques: An Illustrated Overview.
    📎 在线文章

  8. Izacard, G. & Grave, E. (2021). Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering.
    arXiv preprint arXiv:2007.01282.
    📎 论文链接

  9. Shi, P. et al. (2023). RAGAS: Evaluation of RAG Systems Using Factuality and Groundedness.
    📎 GitHub & arXiv

  10. Ram, O. et al. (2023). Modular RAG: Flexible and Interpretable Retrieval-Augmented Generation Systems.
    📎 arXiv

评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

张彦峰ZYF

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值