📖标题:ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities
🌐来源:arXiv, 2407.14482
🛎️文章简介
🔸研究问题:在长上下文和检索增强生成(RAG)方面,如何缩小开源大语言模型(LLM)与专有LLM(如GPT4)之间的性能差距。
🔸主要贡献:论文介绍了Llama3-ChatQA-2-70B模型,具有GPT-4 Turbo相同级别的长上下文理解和RAG的能力,同时提供了一个详细且可复现的技术方案。
📝重点思路
🔺相关工作
🔸长上下文LLM:扩展上下文窗口的趋势始于Claude的100K窗口,有两种流行的方法可以使RoPE适应长上下文输入,包括位置插值和增加RoPE的基频。
🔸RAG:使用独立检索器进行检索,是处理无法容纳的长文本的长期解决方案。以前的基于密集嵌入的检索器仅支持有限的上下文窗口,扩展检索器的上下文窗口变得流行。
🔺论文方案
🔸第一步-持续预训练:通过增加RoPE的基频,将Llama3-70B的基础上下文窗口从8K扩展到128k。
🔸第二步-三阶段指令微调:前两阶段遵循ChatQA-1.5,依次在长度为4k的指令遵循数据和对话数据上做SFT。第三阶段收集长文本数据,并通过数据合成得到长度为32k到128k的训练集做SFT。
🔸第三步-长上下文检索:使用E5-mistral embedding作为长上下文检索器,将检索窗口拓展到12k。
🔸第四步-评测:依次在超过100k、32k以内和4k以内的基准上进行评测。
🔎分析总结
🔸在大海捞针测试测试中达到100%的准确率,确认了其完美的长上下文检索能力。
🔸超过100k的测试中优于许多现有的最先进模型,证实了竞争性的长上下文能力。
🔸32k测试证实当前长上下文LLM可以有效处理,并优于所有RAG解决方案。
🔸4k测试证实短上下文模型扩展到长上下文并不是免费的午餐,如何将上下文窗口扩展到更大的规模,而不会对常规短上下文任务造成任何降级仍值得探索。
💡个人观点
论文的创新点是结合了长上下文理解和RAG能力,并提出了用于构建和评估模型的详细且可复现的方案。