英伟达：LLM整合RAG和长上下文能力_chatqa 2: bridging the gap to proprietary llms in -CSDN博客

本文链接：https://blog.csdn.net/weixin_46739757/article/details/141455922

在这里插入图片描述

📖标题：ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities
🌐来源：arXiv, 2407.14482

🛎️文章简介

🔸研究问题：在长上下文和检索增强生成（RAG）方面，如何缩小开源大语言模型（LLM）与专有LLM（如GPT4）之间的性能差距。
🔸主要贡献：论文介绍了Llama3-ChatQA-2-70B模型，具有GPT-4 Turbo相同级别的长上下文理解和RAG的能力，同时提供了一个详细且可复现的技术方案。

📝重点思路

🔺相关工作

🔸长上下文LLM：扩展上下文窗口的趋势始于Claude的100K窗口，有两种流行的方法可以使RoPE适应长上下文输入，包括位置插值和增加RoPE的基频。
🔸RAG：使用独立检索器进行检索，是处理无法容纳的长文本的长期解决方案。以前的基于密集嵌入的检索器仅支持有限的上下文窗口，扩展检索器的上下文窗口变得流行。

🔺论文方案

🔸第一步-持续预训练：通过增加RoPE的基频，将Llama3-70B的基础上下文窗口从8K扩展到128k。
🔸第二步-三阶段指令微调：前两阶段遵循ChatQA-1.5，依次在长度为4k的指令遵循数据和对话数据上做SFT。第三阶段收集长文本数据，并通过数据合成得到长度为32k到128k的训练集做SFT。
🔸第三步-长上下文检索：使用E5-mistral embedding作为长上下文检索器，将检索窗口拓展到12k。
🔸第四步-评测：依次在超过100k、32k以内和4k以内的基准上进行评测。

🔎分析总结

🔸在大海捞针测试测试中达到100%的准确率，确认了其完美的长上下文检索能力。
🔸超过100k的测试中优于许多现有的最先进模型，证实了竞争性的长上下文能力。
🔸32k测试证实当前长上下文LLM可以有效处理，并优于所有RAG解决方案。
🔸4k测试证实短上下文模型扩展到长上下文并不是免费的午餐，如何将上下文窗口扩展到更大的规模，而不会对常规短上下文任务造成任何降级仍值得探索。