谷歌Speculative RAG：多打草稿少出错，效果优于Self-RAG、CRAG

Python编程杰哥

于 2024-08-28 20:13:00 发布

阅读量242

点赞数 6

文章标签：人工智能 chatgpt easyui 前端 javascript

本文链接：https://blog.csdn.net/xx_nm98/article/details/141648914

版权

当前RAG进展集中在通过迭代的LLMs精细化处理或通过LLMs的额外指令调整获得的自我批评能力来改善检索与生成结果。谷歌多部门（Google Cloud AI Research、Google DeepMind、Google Cloud AI）联合加利福尼亚大学圣迭戈分校提出一个新的框架Speculative RAG，它利用一个更大的通用语言模型（LM）来高效地验证由一个更小的、经过蒸馏的专家LM并行生成的多个RAG草稿。每个草稿（Drafting）都是从检索到的文档的不同子集中生成的，提供了对证据的多样化视角，同时减少了每个草稿的输入标记数。

不同RAG方法的说明。给定一个知识密集型查询Q和检索到的文档，(a)标准RAG将所有文档合并到提示中，增加了输入长度并减慢了推理速度；(b) 自我反思RAG需要对通用语言模型（LM）进行专门的指令调整，以生成用于自我反思的特定标签；© 校正RAG采用外部检索评估器来改善文档质量，仅关注上下文信息而没有增强推理能力；(d) 与之相反，提出的推测性RAG利用一个更大的通用LM来高效地验证由一个更小的、专业的LM并行生成的多个RAG草稿。每个草稿都是从检索到的文档的不同子集中生成的，提供了对证据的多样化视角，同时最小化了每个草稿的输入标记数。

在这里插入图片描述

Speculative RAG的具体实现：

问题定义：在知识密集型任务中，每个条目可以表示为 (Q, D, A)，其中 Q 是需要额外知识的问题或陈述；D 是从数据库检索到的文档集；A 是预期的答案。
概述：Speculative Retrieval Augmented Generation (SPECULATIVE RAG) 的方法，旨在提高对检索文档的推理能力，同时不牺牲处理速度。该方法采用了分而治之的策略，使用较小的专家语言模型（RAG drafter）快速生成多个答案草稿，然后由较大的通用语言模型（RAG verifier）评估这些草稿，并基于其理由选择最佳草稿。
算法描述：首先，根据文档与所提问题的关系对检索到的文档进行聚类，然后从每个聚类中抽取一个文档形成一个子集，以确保多样性并减少冗余。接着，将每个子集分配给 RAG drafter 并行生成答案草稿和理由。之后，使用通用语言模型 MVerifier 计算每个草稿-理由对的置信度分数，并选择分数最高的答案草稿作为最终答案。
专家 RAG Drafter：MDrafter 的角色，这是一个较小的专家 LM，专门用于理解检索到的文档，并生成答案草稿和理由。通过指令调整训练 MDrafter，使其能够生成与问题和文档一致的草稿和理由。
多视角抽样：为减少生成答案草稿时的文档子集的冗余并增强多样性，采用了多视角抽样策略。使用基于指令感知的嵌入模型和 K-Means 聚类算法对文档进行聚类，然后从每个聚类中随机抽取一个文档形成一个子集。
RAG 起草：运行 MDrafter 处理多个文档子集，并生成相应的答案草稿。每个草稿都是基于检索结果中的多种视角生成的。
MDrafter指令微调：
理由生成：对于每个三元组（Q, A, D），利用一个较强的语言模型来自动合成理由（E）。理由是从文档中提取的关键信息，用于简明地解释为什么答案是对问题合理的。
指令调整（Instruction Tuning）：将理由E与原始的三元组数据结合，形成增强的四元组（Q, A, D, E）。然后，使用这些增强的数据对预训练的语言模型进行微调，使其学习如何基于问题和文档生成合理的理由和答案草稿。
通用 RAG Verifier：MVerifier 的角色，这是一个通用 LM，用于评估由 RAG drafter 生成的草稿和理由，以筛选出不太可靠的草稿并选择最佳答案。MVerifier 利用其语言建模能力对草稿-理由对进行排名和选择。
评分方法：MVerifier使用自洽性分数（self-consistency score）和自反性分数（self-reflection score）来评估答案草稿和理由的质量。这些分数是基于语言模型的概率计算得到的，不需要额外的训练数据。
效率：由于MVerifier使用的是已经预训练好的模型，因此在实际应用中可以快速部署，不需要等待长时间的训练过程。

Speculative RAG在TriviaQA、MuSiQue、PubHealth和ARC-Challenge等四个基准测试中实现了最先进的性能，降低了延迟，比S****elf-Reflective RAG 、Corrective RAG、Standard RAG效果都要好。

与常规RAG系统相比，在PubHealth上提高了准确性高达12.97%，同时将延迟降低了51%。

在TriviaQA、MuSiQue、PubHealth和ARC-Challenge（ARC-C）上的检索增强型生成结果。(∗当单独使用RAG起草器时，使用其生成概率ρDraft作为选择草稿的置信度分数；†表示Asai等人（2023年）报告的数字；−表示原始论文没有报告的数字或不适用的数字；‡使用Mistral7B或Mixtral8x7B作为RAG验证器，并分别表示为MVerifier-7B或MVerifier-8x7B。)

在这里插入图片描述

标准RAG（使用张量并行的Mixtral-Instruct 8x7B）与推测性RAG（MVerifier-8x7B + MDrafter-7B）在TriviaQA、MuSiQue、PubHealth和ARC-Challenge上延迟分析。标准RAG和推测性RAG之间的延迟差异用红色突出显示（+x%）。TP表示运行标准RAG时Mixtral-Instruct 8x7B的张量并行大小。由于检索到的文档长度不同，不同数据集上的延迟有所变化。推测性RAG并行编码检索到的文档，并使用较小的RAG起草器生成答案草稿。这显著提高了标准RAG的效率。

在这里插入图片描述

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

Python编程杰哥

关注

6
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
谷歌Speculative RAG：多打草稿少出错，效果优于Self-RAG、CRAG

当前RAG进展集中在通过迭代的LLMs精细化处理或通过LLMs的额外指令调整获得的来改善检索与生成结果。（Google Cloud AI Research、Google DeepMind、Google Cloud AI）联合加利福尼亚大学圣迭戈分校提出一个新的框架通用语言模型（LM）来高效地验证由一个更小的、经过蒸馏的专家LM并行生成的。每个草稿（）都是从检索到的文档的不同子集中生成的，提供了对证据的多样化视角，同时减少了每个草稿的输入标记数。。给定一个知识密集型查询Q和检索到的文档，(a)
复制链接

扫一扫