NUS：通过RAG加速LLM推测解码_long-context inference with retrieval-augmented sp-CSDN博客

本文链接：https://blog.csdn.net/weixin_46739757/article/details/145993382

在这里插入图片描述

📖标题：Long-Context Inference with Retrieval-Augmented Speculative Decoding
🌐来源：arXiv, 2502.20330

🌟摘要

🔸长上下文大型语言模型（LLM）的出现为处理大量文档提供了一种有前景的替代传统检索增强生成（RAG）的方法。然而，长上下文推理的计算开销，特别是在管理键值（KV）缓存方面，带来了巨大的效率挑战。虽然推测解码（SD）传统上使用较小的草稿模型加速推理，但由于内存受限的KV缓存操作，其在长上下文场景中的有效性会大大降低。
🔸我们提出了检索增强SPeculatIve解码（RAPID），它利用RAG来加速和提高长上下文推理中的生成质量。RAPID引入了RAG起草者——一个在缩短的检索上下文上运行的LLM草案——来推测长上下文目标LLM的生成。我们的方法实现了一种新的范式，在这种范式中，相同规模甚至更大的LLM可以作为RAG的起草者，同时保持计算效率。为了充分利用更强大的RAG起草者的潜在优势，我们开发了一种推理时知识转移动态，丰富了RAG的目标分布。
🔸在LLaMA-3.1和Qwen2.5主干上的广泛实验表明，RAPID有效地整合了这两种方法的优势，实现了显着的性能改进（例如，LLaMA-3.1-8B在InfiniteBench上从39.33提高到42.83），速度提高了2倍以上。我们的分析表明，RAPID实现了超过32K上下文长度的稳健加速，并在现实应用中表现出卓越的生成质量。代码在https://github.com/John-AI-Lab/RAPID

🛎️文章简介

🔸研究问题：大语言模型（LLM）在长上下文推理中，因内存限制而导致计算效率低下。
🔸主要贡献：论文提出了一种新的检索增强推测解码方法（RAPID），通过结合检索增强生成模型和推测解码的优点，提高了长上下文推理的速度和生成质量。

📝重点思路

🔸引入RAG草稿模型，在处理长上下文时进行选择性信息检索，以在较短的上下文上生成候选输出，以提高推测解码的效率。
🔸通过反向定位RAG草稿模型作为教师模型，将知识转移到长上下文目标模型（学生模型）中，以增强目标模型的生成能力。
🔸设计检索增强目标分布，允许在推理过程中从RAG草稿模型中获取重要信息，同时保持对生成质量的验证能力。
🔸进行多种实验评估，包括与基线模型的比较，分析不同上下文长度和检索长度对性能的影响。

🔎分析总结

🔸RAPID在长上下文推理中实现了超过32K令牌的加速效果，且在适中的检索长度下表现出显著的效率。
🔸使用RAG草稿模型可以在生成质量上超越传统的长上下文模型，且具有更高的接受率（75-85%）。
🔸与传统的推测解码相比，RAPID在生成准确性上提升了2-8%，并且在所有配置下均表现出优于基线的性能。
🔸观察到“涌现现象”，即RAPID在某些情况下能够处理目标模型和RAG草稿模型单独无法处理的任务，表明其协同作用带来了新的能力。