长文本环境下检索增强型生成模型LongRAG

人工智能大模型讲师培训咨询叶梓

已于 2024-12-20 13:38:22 修改

阅读量947

点赞数 26

分类专栏：大模型实战 AI前沿文章标签：人工智能 RAG 长文本问答检索增强自然语言处理大模型 AI

于 2024-12-13 18:26:14 首次发布

本文链接：https://blog.csdn.net/weixin_44292902/article/details/144453561

版权

AI前沿同时被 2 个专栏收录

102 篇文章

订阅专栏

大模型实战

69 篇文章

订阅专栏

人工智能咨询培训老师叶梓转载标明出处

大模型讲师叶梓分享长文本环境下检索增强型生成模型LongRAG

传统的RAG框架通常使用较短的检索单元，例如100个单词的维基百科段落。这种设计要求检索器在庞大的语料库中搜索相关信息单元，而阅读器则从这些短的检索单元中提取答案。这种“重检索器、轻阅读器”的设计可能导致性能不佳。为了缓解这种不平衡，加拿大滑铁卢大学的研究人员提出了一个新的框架——LongRAG，该框架包含一个“长检索器”和一个“长阅读器”。

图1为传统的RAG框架与提出的LongRAG框架之间的对比。在传统的RAG中，检索器（retriever）需要在大量的单元中寻找相关的短文本单元，而读者（reader）则从这些短文本单元中提取答案。LongRAG则使用更长的检索单元（30倍长），减少了检索器的工作量，并显著提高了召回率。

想要掌握如何将大模型的力量发挥到极致吗？叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具（限时免费）。

1小时实战课程，您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型，以发挥其最大潜力。

CSDN教学平台录播地址：https://edu.csdn.net/course/detail/39987

LongRAG框架

框架主要由两部分组成：长检索器（Long Retriever）和长阅读器（Long Reader）。

长检索器

长检索器的核心思想是将传统的短检索单元转变为更长的检索单元，从而减少检索器的工作负担，并将更多的工作转移到阅读器上。在LongRAG框架中，传统的RAG框架使用较小的检索单元，而LongRAG则更注重召回，目的是检索相关但不一定精确的上下文信息。

形成长检索单元：通过将整个文档或多个相关文档组合成长检索单元，每个检索单元包含超过4K个令牌，这样的设计可以显著减少语料库的大小，并确保每个检索单元的语义完整性。算法1（Algorithm 1 Group Documents Algorithm）展示了如何基于文档之间的关系，使用每个文档中嵌入的超链接来对文档进行分组。输出的组是一系列相关的文档列表。通过使用更长的检索单元，有两个优势：首先，它确保了每个检索单元的语义完整性；其次，它为需要从多个文档中获取信息的任务提供了更丰富的上下文。

相似性搜索：使用编码器EQ(·)将输入问题映射到d维向量，同时使用不同的编码器EC(·)将检索单元映射到d维向量。通过这两个向量的点积来定义问题和检索单元之间的相似度：。在LongRAG设置中，由于g的长度，采用近似方法，通过最大化检索单元g内所有块g′的分数来近似计算相似度。

聚合检索结果：将最相关的k个检索单元连接成长上下文作为检索结果，表示为。较大的检索单元会导致k值较小，例如，如果是段落级别的检索单元，k可能在100以上；如果是文档级别，k大约在10左右；对于作为检索单元的组合文档，通常将k设置为4到8。

图2为LongRAG的一个例子。左侧展示了如何通过Wikipedia文档中的超链接将长检索单元进行分组，每个检索单元包含平均4K个令牌，对应多个相关文档。右侧展示了一个来自HotpotQA的多跳问题回答测试案例。最终结果可以通过仅使用几个检索单元实现，然后将这些单元输入到长阅读器中。

长阅读器

长阅读器的操作相对直接。将相关指令i、问题q和长检索结果CF输入到一个大模型中，使其能够在长上下文中进行推理并生成最终输出。重要的是，长阅读器使用的大模型能够处理长上下文且不会表现出过度的位置偏差。我们选择了Gemini1.5-Pro和GPT-4o作为长阅读器，因为它们在处理长上下文输入方面有很强的能力。

对于短上下文（通常包含少于1K个令牌），指导阅读器直接从检索到的上下文中提取答案。对于长上下文（通常长于4K个令牌），使用类似于短上下文的提示，即模型直接从长上下文中提取最终答案，通常会降低性能。相反，最有效的方法是将大模型作为一个聊天模型来使用。最初，它输出一个较长的答案，通常跨越几个词到几句话。随后提示它通过进一步从长答案中提取来生成一个简短的答案。

实验

数据集

数据集选择：

Natural Questions (NQ)：这个数据集是为了端到端的问题回答而设计的，包含3610个问题，这些问题来自真实的谷歌搜索查询，答案则是维基百科文章中被注释者识别的片段。
HotpotQA：这个数据集包含多个主题的两跳问题。研究者们关注的是全维基设置，需要两个维基百科段落来回答这些问题。由于测试集的金标准段落不可用，他们遵循先前的工作，在包含7405个问题的发育集上进行评估。

知识源（Wikipedia）：