📖标题:Parametric Retrieval Augmented Generation
🌐来源:arXiv, 2501.15915
🌟摘要
🔸检索增强生成(RAG)技术已成为一种有前景的解决方案,通过解决幻觉、过时知识和领域适应等问题来提高大型语言模型(LLM)的可靠性。特别是,现有的RAG方法将从外部语料库或数据库检索到的相关文档附加到LLM的输入中,以指导其生成过程,我们称之为上下文知识注入方法。虽然这种方法简单且通常有效,但它有固有的局限性。首先,增加上下文长度和相关文档的数量会导致更高的计算开销和性能下降,特别是在复杂的推理任务中。更重要的是,上下文知识注入主要在输入级别运行,但LLM将其内部知识存储在参数中。这种差距从根本上限制了上下文方法的能力。
🔸为此,我们引入了参数检索增强生成(Parametric RAG),这是一种新的RAG范式,通过文档参数化将外部知识直接集成到LLM的前馈网络(FFN)的参数中。这种方法不仅通过消除将多个文档注入LLM输入上下文的需要来节省在线计算成本,而且深化了外部知识到LLM参数知识空间的整合。
🔸实验结果表明,参数RAG显著提高了LLM中知识增强的有效性和效率。此外,它还可以与上下文RAG方法相结合,以实现更好的性能。详见https://github.com/oneal2000/PRAG
🛎️文章简介
🔸研究问题:RAG通过外挂知识进行检索虽然简单有效,但上下文长度和文档数量会导致更高的计算开销并降低工作性能。
🔸主要贡献:论文提出了Parametric RAG,一种新的RAG范式,通过将外部知识直接注入到LLM的参数中,提高了RAG的有效性和效率。
📝重点思路
🔺离线文档参数化
🔸思想:在预处理阶段,将每个文档转换为参数化表示,包括文档增强和参数化文档编码。
🔸文档增强:通过文档重写和生成问答对(QA pairs)来构建更丰富的信息表示。
🔸参数化文档编码:使用低秩矩阵(LoRA)方法,将每个文档的参数化表示训练为低秩矩阵,这些矩阵可以直接集成到LLM的前馈网络(FFN)中。
🔺在线推理
🔸思想:采用Retrieve-Update-Generate(RUG)工作流程。
🔸Retrieve:根据用户查询从外部语料库中检索最相关的文档。
🔸Update:使用检索到的文档的参数化表示更新LLM的参数。
🔸Generate:使用更新后的LLM直接基于原始输入提示生成响应。
🔎分析总结
🔸Parametric RAG在多个RAG基准测试中表现出色,特别是在涉及复杂推理的任务中,其推理效率优于现有的上下文RAG方法。
🔸结合参数化RAG和上下文RAG方法(Combine Both)在各种数据集和基础LLM上实现了最高的整体性能,表明参数化知识注入与传统的上下文知识注入方法并不冲突。
🔸文档增强过程中的重写和问答对生成步骤对提升模型性能至关重要,特别是问答对生成步骤对模型回忆和应用事实信息的能力有显著影响。
🔸使用预热初始化策略(P-RAG Warm)的LoRA权重在多个模型系列和规模上均优于随机初始化(P-RAG Rand),表明任务感知的预训练可以显著增强Parametric RAG管道的效果。
💡个人观点
论文的核心是把外挂的知识训练成LoRA矩阵,从而实现不占上下文的集成。