📖标题:LongRAG: A Dual-Perspective Retrieval-Augmented Generation Paradigm for Long-Context Question Answering
🌐来源:arXiv, 2410.18050
摘要
🔸长上下文问答 (LCQA) 是一项具有挑战性的任务,旨在推理长上下文文档以产生问题的准确答案。现有的 LCQA 长上下文大型语言模型 (LLM) 通常会遇到“中间丢失”问题。检索增强生成 (RAG) 通过提供外部事实证据来缓解这个问题。然而,它的分块策略破坏了全局长上下文信息,其长上下文中的低质量检索阻碍了LLM由于大量噪声而识别有效的事实细节。
🔸为此,我们提出了 LongRAG,这是一种通用、双视角和强大的基于 LLM 的 LCQA RAG 系统范式,以增强 RAG 对复杂长上下文知识(即全局信息和事实细节)的理解。我们将 LongRAG 设计为即插即用范式,便于适应各个领域和 LLM。
🔸在三个基准数据集上的广泛实验表明,LongRAG 显着优于长上下文 LLM(高达 69.4%)、高级 RAG(高达 616%)和 Vanilla RAG(高达 17.25%)。此外,我们进行了定量消融研究和多维分析,突出了系统组件和微调策略的有效性。数据和代码可在 https://github.com/QingFei1/LongRAG 获得。
🛎️文章简介
🔸研究问题:长上下文问答(LCQA)中,现有检索增强生成(RAG)系统在处理长文档时存在的信息不完整和噪声过多问题。
🔸主要贡献:论文提出了LongRAG,一种双视角的检索增强生成范式,实现了一个自动化的微调数据构建管道和多任务训练策略,显著提升了长上下文问答任务的性能。
📝重点思路
🔺相关工作
🔸长上下文LLM:LLM的背景窗口长度受到其训练的限制,最近的研究重点是扩展有限上下文长度,包括使用长上下文的训练方法和基于限制性注意力的非训练方法。
🔸RAG:被认为是提高LLM答题质量的有力技术,缓解了过时的长尾知识、幻觉以及缺乏领域专业知识
🔸RAG特定领域微调:现有的工作包括微调检索相关组件以实现更好的检索结果、微调生成器以获得更个性化的输出,并采用协作微调。
🔺论文方案
🔸双视角检索增强生成范式:LongRAG系统包含四个可插拔组件,分别为混合检索器、LLM增强的信息提取器、CoT引导的过滤器和LLM增强的生成器,这些组件通过多策略方法增强了对复杂长上下文的理解。
🔸生成流程:①使用检索器从长上下文语料库中检索最相关的片段 ②通过长上下文信息提取器提取全局信息,同时通过CoT引导的过滤器识别包含事实细节的片段 ③使用生成器整合全局信息和事实细节,生成最终答案。
🔸训练方式:采用多任务训练策略,使用多长度的长上下文数据进行训练。
🔎分析总结
🔸性能优越性:LongRAG系统在所有数据集上显著优于长上下文LLM和先进的RAG方法。
🔸噪声处理能力:LongRAG通过提取器和过滤器获取更高质量和较少噪声的知识,生成更准确的答案。
🔸鲁棒性和可迁移性:LongRAG在不同微调的LLM上表现出强大的鲁棒性和可迁移性,适用于复杂的多跳长上下文问题。
🔸长上下文LLM的局限:长上下文LLM在处理中间部分的关键事实细节时容易忽略,而LongRAG能够精确且鲁棒地感知这些细节。
💡个人观点
论文的核心是整合全局信息和细节信息,剔除无关噪声和提高全面性。
附录